python拉勾网爬虫实战

最新推荐文章于 2024-03-30 19:55:41 发布

snail_bily

最新推荐文章于 2024-03-30 19:55:41 发布

阅读量409

点赞数

分类专栏： python爬虫文章标签： python爬虫拉勾网爬虫数据可视化

本文链接：https://blog.csdn.net/snail_bily/article/details/82621868

版权

python爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.爬虫目的

爬取我感兴趣的职位，并对其做分析，根据数据分析结果对自己找工作做一个职业规划

2.写代码

这次是简单的requests+BeautifulSoup+panda库爬虫

先在拉勾网输入自己想找工作的关键字，然后右键检查，在Network—XHR下找到职位信息，经根据Header编写代码

代码：

import requests
from bs4 import BeautifulSoup
import time
import pandas as pd
import sqlite3

def main():
headers = {
        'Connection': 'keep-alive',
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/47.0.2526.106 Safari/537.36',
        'Host': 'www.lagou.com',
        'Origin': 'https://www.lagou.com',
        'Referer': 'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98?px=new&city=%E5%85%A8%E5%9B%BD',
        'X-Anit-Forge-Code': '0',
        'X-Anit-Forge-Token': None,
        'X-Requested-With': 'XMLHttpRequest'
    }
    positions = []
###########分析页面发现，页面是根据pn参数分页的，根据这个参数定义for循环来爬取多页信息########
for x in range（1,31）：
    form_data = {
        'first': 'true',
        'pn': x,
        'kd': "数据挖掘"
    }
    re = requests.post('https://www.lagou.com/jobs/positionAjax.json?px=new&needAddtionalResult=false',
                       headers=headers, data=form_data)
    json_result = re.json()
    page_positions = json_result['content']['positionResult']['result']
    positions.extend(page_positions)

#######将数据保存到excel表中#############################
 df = pd.DataFrame(positions)
 df.to_excel('Position30.xlsx', index=False)

3.简单的结果可视化