Python3爬取前程无忧数据分析工作并存储到MySQL

最新推荐文章于 2023-10-27 13:56:10 发布

置顶

打工人户户

最新推荐文章于 2023-10-27 13:56:10 发布

阅读量6.6k

点赞数 37

文章标签： Python MySQL 爬虫前程无忧招聘

本文链接：https://blog.csdn.net/qq_41815243/article/details/91461220

版权

本文介绍了使用Python爬取前程无忧网站上的数据分析职位信息，详细讲解了从导入包、获取HTML、解析内容、数据清洗到存储到MySQL数据库的全过程，并实现了分页爬取。最后在Navicat中验证了数据成功入库。

摘要由CSDN通过智能技术生成

1、导入包

import requests   #取数
from lxml import etree   #用xpath解析
import pymysql   #连接数据库
import chardet   #自动获取编码

2、获取单页html

def get_one_page(url):
    headers = {
   'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36'}
    response = requests.get(url, headers=headers)  #习惯先把头部信息加上
    response.encoding = chardet.detect(response.content)['encoding'] #用chardet.detect方法自动获取网页的编码，也可以自己手动在网页查
    return response.text

3、解析html

def parse_one_page(html):
    #对获取内容初始化，再用parse函数etree.HTML解析
    result = etree.HTML(html)
    item = {
   } #建立一个字典储存所有职位信息
    item['t1'] = result.xpath('//div[@class="el"]/p/span/a/text()') #职位名称
    item['t2'] = result.xpath('//div[@class="el"]/span[@class="t2"]/a/text()') #公司名称
    item['t3'] = result.xpath('//div[@class="el"]/span[@class="t3"]/text()') #工作地点
    t4 = result.xpath('//div[@class="el"]/span[@class="t4"]')   #text无法获取空值(薪资数据可能为空),所以要用string方法获取
    item['t4'] = []
    for i in t4:
        item['t4'].append(i.xpath('string(.)'))  #遍历出来再用xpath解析，string(.)中间的点表示在当前目录
    item['t5'] = result.xpath('//div[@class="el"]/span[@class="t5

最低0.47元/天解锁文章

打工人户户

关注

37
点赞
踩
132

收藏

觉得还不错? 一键收藏
6
评论
Python3爬取前程无忧数据分析工作并存储到MySQL

1、导入包import requests #取数from lxml import etree #用xpath解析import pymysql #连接数据库import chardet #自动获取编码2、获取单页htmldef get_one_page(url): headers = {'User-Agent':'Mozilla/5.0 (Windows NT ...
复制链接

扫一扫