此爬虫的中各个函数的作用:
1.初始化函数
基础的url地址,请求头,用来记录HTML源代码属性,total_page总页数
2.start函数
爬虫的主函数
3.get_html函数
根据url地址获取html源代码,转换为str类型,并赋值得self.html
4.parse_total函数
从html源代码中根据正则提取职位总个数,计算总页码,math.ceil()向上取整
5.parse_info函数
根据总页码。获取每一页的html源代码,根据正则提取职位信息,并对数据进行简单的清洗工作
将数据存储到表格中
6.filter函数
将正则匹配到的数据进行清洗,把多余的数据剔除
引入需要的包
import re
from urllib import request, parse
# xlwt操作excel表格
import xlwt
from random import choice
声明一个爬虫类
class ZhiLianSpider(object):
初始化函数,在初始化函数中需要拼接url,准备请求头,声明html属性,用来记录源代码
def __init__(self, kw, citys):
#1.准备城市名字与关键词,拼接url
data = {
'jl': '+'.join(citys),
'kw': kw,
}
# 记录搜索关键词
self.kw = kw
# http://sou.zhaopin.com/jobs/searchresult.ashx?j1=%E5%8C%97%E4%BA%AC%252B%E4%B8%8A%E6%B5%B7%252B%E5%B9%BF%E5%B7%9E&