一.包的引用
1.正则import re
2.请求from urllib import request, parse
3. xlwt 操作Excel表格
二.代码实现功能介绍
1.初始化函数
kw搜索关键词,基础的url,请求头,用来记录html源代码属性,total_page总页码
2.start函数
爬虫的启动函数
3.get_html函数
根据url地址,获取html源代码,转换为str类型,并赋值给self.html
4.parse_total函数
从html源代码中,根据正则提取职位总个数,计算总页码,math.ceil()向上取整
5.parse_info函数
根据总页数,获取每一页的html源代码,根据正则提取职位信息,并对数据进行简单的清洗工作
将数据存储表格中
6.fillter函数
将正则匹配到数据进行清洗,
import math
ceil() 向上取整
total_zw//60 向下取整
total_page = math.ceil(total_zw/60)
1.正则import re
2.请求from urllib import request, parse
3. xlwt 操作Excel表格
import xlwt
例如:
# 1.创建 一个工作簿对象
workbook = xlwt.Workbook(encoding='utf-8')
# 2.添加一张表
sheet = workbook.add_sheet('python职位表')
# 3.向表中添加数据
sheet.write(0, 0, '职位名称')
sheet.write(0, 1, '工作地点')
sheet.write(0, 2, '公司名称')
sheet.write(0, 3, '薪资待遇')
sheet.write(0, 4, '发布日期')
# 4.保存
workbook.save('python职位信息.xls')
4.获取useragent
法一:
from fake_useragent import UserAgent
useragent = UserAgent()法二:
获取随机的UserAgent
from random import choice二.代码实现功能介绍
1.初始化函数
kw搜索关键词,基础的url,请求头,用来记录html源代码属性,total_page总页码
2.start函数
爬虫的启动函数
3.get_html函数
根据url地址,获取html源代码,转换为str类型,并赋值给self.html
4.parse_total函数
从html源代码中,根据正则提取职位总个数,计算总页码,math.ceil()向上取整
5.parse_info函数
根据总页数,获取每一页的html源代码,根据正则提取职位信息,并对数据进行简单的清洗工作
将数据存储表格中
6.fillter函数
将正则匹配到数据进行清洗,
三.基本知识
1. parse.urlencode 对url进行编码
例如:data = parse.urlencode(data)
2.引入math函数
计算总页数import math
ceil() 向上取整
total_zw//60 向下取整
total_page = math.ceil(total_zw/60)
3.元组转换为列表
例如: rs_list = list(info)