python爬虫爬取音乐单曲_使用Python爬虫爬取招聘网站

1 Python爬虫简介

网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。简单的说,就是有一个程序可以自动去访问网页。

如何实现爬虫:可以分为三步:①构建请求头;②发起访问;③获得响应。参考文章:https://zhuanlan.zhihu.com/p/90986123

2 招聘网站Python爬虫

2.1 爬取前的分析

0707e41c813e99d8f3aef0e6df0ad187.png
  • (1)使用Chrome浏览器打开智联招聘首页,搜索“数据分析”,可以看到当前的网页是:https://sou.zhaopin.com/?jl=763&kw=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&kt=3
  • (2)按一下F12键,调出“控制台开发工具”,切换到“Network”选项卡,刷新网页,可以看到请求和响应。
  • (3)查找搜索结果在哪一个请求地址中,发现是在https://fe-api.zhaopin.com/c/i/sou中,是一个异步请求。
  • (4)构造请求头:查看“Request Headers”,记录下需要的参数。
  • (5)解析数据:结果是一个json。职位信息在data.results中。
  • (6)保存数据:使用csv把数据保存为csv格式的文件。当然也可以保存为其他格式化,或者保存到数据库。

2.2 爬虫代码和注释

严正声明:爬虫仅仅是一门技术,本次爬取的信息不包含任何个人信息,未对访问网站造成较大批量请求。仅供学习使用,不得用于不合规的用途。
# 导入相关的包
import requests
import time
import csv
from urllib.parse import urlencode
from urllib.parse import quote

# 使用面向对象的方式
class Spider:
    def __init__(self, page, cityId, search_keywords):
        '''初始化方法'''
        start = (page - 1) * 90  # 搜索结果每页90个,请求参数的start的值为0,90,180等。
        self.headers = {
            'referer': 'https://sou.zhaopin.com/?jl=' + str(cityId) + '&kw=' + quote(search_keywords) + '&kt=3',
            'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)',
            'x-requested-with': 'XMLHttpRequest'  # ajax异步请求
            }
        self.params = {
             'start': start,
             'pageSize': '90',
             'cityId': cityId,
             'workExperience': -1,
             'education': -1,
             'companyType': -1,
             'employmentType': -1,
             'jobWelfareTag': -1,
             'kw': search_keywords,
             'kt': 3,
             '_v': '0.00882343',
             'x-zp-page-request-id': '',
             'x-zp-client-id': ''
            }
        self.url_search = 'https://fe-api.zhaopin.com/c/i/sou?' + urlencode(self.params)

    def get_one_page(self):
        '''请求网页'''
        try:
            response = requests.get(self.url_search, headers=self.headers)
            if response.status_code == 200:
                return response.json()
        except requests.ConnectionError:
            print('连接错误')
            return None

    def parse_one_page(self, response_json):
        '''解析网页'''
        if response_json:
            items = response_json.get('data').get('results')
            for item in items:
                crawlTime = str(time.ctime())  # 抓取时间
                businessArea = item.get('businessArea')  # 公司所在区域
                city = item.get('city').get('items')[0].get('name')  # 公司所在城市
                companyName = item.get('company').get('name')  # 公司名称
                companyNumber = item.get('company').get('number')  # 公司ID
                companySize = item.get('company').get('size').get('name')  # 公司人数规模
                eduLevel = item.get('eduLevel').get('name')  # 职位要求的学历
                jobName = item.get('jobName')  # 职位名称
                jobNumber = item.get('number')  # 职位ID
                jobType = item.get('jobType').get('items')[0].get('name')  # 职位类别
                positionURL = item.get('positionURL')  # 职位网址
                salary = item.get('salary')  # 薪资
                updateDate = item.get('updateDate')  # 职位更新时间
                workingExp = item.get('workingExp').get('name')  # 工作年限要求
                zhilian_results = [crawlTime, businessArea, city, companyName, companyNumber, companySize, eduLevel,
                                  jobName, jobNumber, jobType, positionURL, salary, updateDate, workingExp]
                print('zhilian_results:', zhilian_results)
                yield zhilian_results

    def save_to_csv(self, zhilian_results):
        '''保存数据到CSV文件'''
        headers = ['crawlTime', 'businessArea', 'city', 'companyName', 'companyNumber',
                   'companySize', 'eduLevel', 'jobName', 'jobNumber', 'jobType', 'positionURL',
                   'salary'  , 'updateDate', 'workingExp']
        with open('zhilian_results.csv', 'a', encoding='utf-8', newline='') as f:
            f_csv = csv.writer(f)
            f_csv.writerow(headers)
            f_csv.writerows(zhilian_results)

    def run(self):
        '''启动函数'''
        response_json = self.get_one_page()
        zhilian_search_results = self.parse_one_page(response_json)
        self.save_to_csv(zhilian_search_results)

if __name__ == '__main__':
    # 抓取搜索相关性较高的前3页
    for i in range(1, 4):
        time.sleep(1)
        s = Spider(i, 763, '数据分析')
        s.run()

爬取结果

2faba1fbff28f108f8cc9e1c9bf88b85.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值