Python3爬取前程无忧数据分析工作并存储到MySQL

本文介绍了使用Python爬取前程无忧网站上的数据分析职位信息,详细讲解了从导入包、获取HTML、解析内容、数据清洗到存储到MySQL数据库的全过程,并实现了分页爬取。最后在Navicat中验证了数据成功入库。
摘要由CSDN通过智能技术生成

1、导入包

import requests   #取数
from lxml import etree   #用xpath解析
import pymysql   #连接数据库
import chardet   #自动获取编码

2、获取单页html

def get_one_page(url):
    headers = {
   'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36'}
    response = requests.get(url, headers=headers)  #习惯先把头部信息加上
    response.encoding = chardet.detect(response.content)['encoding'] #用chardet.detect方法自动获取网页的编码,也可以自己手动在网页查
    return response.text

3、解析html

def parse_one_page(html):
    #对获取内容初始化,再用parse函数etree.HTML解析
    result = etree.HTML(html)
    item = {
   } #建立一个字典储存所有职位信息
    item['t1'] = result.xpath('//div[@class="el"]/p/span/a/text()') #职位名称
    item['t2'] = result.xpath('//div[@class="el"]/span[@class="t2"]/a/text()') #公司名称
    item['t3'] = result.xpath('//div[@class="el"]/span[@class="t3"]/text()') #工作地点
    t4 = result.xpath('//div[@class="el"]/span[@class="t4"]')   #text无法获取空值(薪资数据可能为空),所以要用string方法获取
    item['t4'] = []
    for i in t4:
        item['t4'].append(i.xpath('string(.)'))  #遍历出来再用xpath解析,string(.)中间的点表示在当前目录
    item['t5'] = result.xpath('//div[@class="el"]/span[@class="t5
  • 37
    点赞
  • 132
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值