python爬虫爬取音乐单曲_使用Python爬虫爬取招聘网站

最新推荐文章于 2024-08-16 11:38:09 发布

当然是不承认

最新推荐文章于 2024-08-16 11:38:09 发布

阅读量261

点赞数

文章标签： python爬虫爬取音乐单曲

本文链接：https://blog.csdn.net/weixin_33568172/article/details/112229701

版权

1 Python爬虫简介

网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。简单的说，就是有一个程序可以自动去访问网页。

如何实现爬虫：可以分为三步：①构建请求头；②发起访问；③获得响应。参考文章：https://zhuanlan.zhihu.com/p/90986123

2 招聘网站Python爬虫

2.1 爬取前的分析

（1）使用Chrome浏览器打开智联招聘首页，搜索“数据分析”，可以看到当前的网页是：https://sou.zhaopin.com/?jl=763&kw=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&kt=3
（2）按一下F12键，调出“控制台开发工具”，切换到“Network”选项卡，刷新网页，可以看到请求和响应。
（3）查找搜索结果在哪一个请求地址中，发现是在https://fe-api.zhaopin.com/c/i/sou中，是一个异步请求。
（4）构造请求头：查看“Request Headers”，记录下需要的参数。
（5）解析数据：结果是一个json。职位信息在data.results中。
（6）保存数据：使用csv把数据保存为csv格式的文件。当然也可以保存为其他格式化，或者保存到数据库。

2.2 爬虫代码和注释

严正声明：爬虫仅仅是一门技术，本次爬取的信息不包含任何个人信息，未对访问网站造成较大批量请求。仅供学习使用，不得用于不合规的用途。

# 导入相关的包
import requests
import time
import csv
from urllib.parse import urlencode
from urllib.parse import quote

# 使用面向对象的方式
class Spider:
    def __init__(self, page, cityId, search_keywords):
        '''初始化方法'''
        start = (page - 1) * 90  # 搜索结果每页90个，请求参数的start的值为0,90,180等。
        self.headers = {
            'referer': 'https://sou.zhaopin.com/?jl=' + str(cityId) + '&kw=' + quote(search_keywords) + '&kt=3',
            'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)',
            'x-requested-with': 'XMLHttpRequest'  # ajax异步请求
            }
        self.params = {
             'start': start,
             'pageSize': '90',
             'cityId': cityId,
             'workExperience': -1,
             'education': -1,
             'companyType': -1,
             'employmentType': -1,
             'jobWelfareTag': -1,
             'kw': search_keywords,
             'kt': 3,
             '_v': '0.00882343',
             'x-zp-page-request-id': '',
             'x-zp-client-id': ''
            }
        self.url_search = 'https://fe-api.zhaopin.com/c/i/sou?' + urlencode(self.params)

    def get_one_page(self):
        '''请求网页'''
        try:
            response = requests.get(self.url_search, headers=self.headers)
            if response.status_code == 200:
                return response.json()
        except requests.ConnectionError:
            print('连接错误')
            return None

    def parse_one_page(self, response_json):
        '''解析网页'''
        if response_json:
            items = response_json.get('data').get('results')
            for item in items:
                crawlTime = str(time.ctime())  # 抓取时间
                businessArea = item.get('businessArea')  # 公司所在区域
                city = item.get('city').get('items')[0].get('name')  # 公司所在城市
                companyName = item.get('company').get('name')  # 公司名称
                companyNumber = item.get('company').get('number')  # 公司ID
                companySize = item.get('company').get('size').get('name')  # 公司人数规模
                eduLevel = item.get('eduLevel').get('name')  # 职位要求的学历
                jobName = item.get('jobName')  # 职位名称
                jobNumber = item.get('number')  # 职位ID
                jobType = item.get('jobType').get('items')[0].get('name')  # 职位类别
                positionURL = item.get('positionURL')  # 职位网址
                salary = item.get('salary')  # 薪资
                updateDate = item.get('updateDate')  # 职位更新时间
                workingExp = item.get('workingExp').get('name')  # 工作年限要求
                zhilian_results = [crawlTime, businessArea, city, companyName, companyNumber, companySize, eduLevel,
                                  jobName, jobNumber, jobType, positionURL, salary, updateDate, workingExp]
                print('zhilian_results:', zhilian_results)
                yield zhilian_results

    def save_to_csv(self, zhilian_results):
        '''保存数据到CSV文件'''
        headers = ['crawlTime', 'businessArea', 'city', 'companyName', 'companyNumber',
                   'companySize', 'eduLevel', 'jobName', 'jobNumber', 'jobType', 'positionURL',
                   'salary'  , 'updateDate', 'workingExp']
        with open('zhilian_results.csv', 'a', encoding='utf-8', newline='') as f:
            f_csv = csv.writer(f)
            f_csv.writerow(headers)
            f_csv.writerows(zhilian_results)

    def run(self):
        '''启动函数'''
        response_json = self.get_one_page()
        zhilian_search_results = self.parse_one_page(response_json)
        self.save_to_csv(zhilian_search_results)

if __name__ == '__main__':
    # 抓取搜索相关性较高的前3页
    for i in range(1, 4):
        time.sleep(1)
        s = Spider(i, 763, '数据分析')
        s.run()

爬取结果：