记录最新拉勾网职位和详情页的爬取

最新推荐文章于 2024-08-03 10:58:57 发布

sola237

最新推荐文章于 2024-08-03 10:58:57 发布

阅读量1.1k

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/sola237/article/details/105452903

版权

拉勾网职位和详情页爬取

拉勾网爬虫是异步加载方式，先访问初始页面得到cookie，再用cookie去爬取职位详情页面。

这里参考的是另外一篇文字的做法，开始自己走了很多弯路。原文链接暂时找不到了，后面看到会再贴上来。

爬取过程：
1、创建获取cookie的函数
2、main主程序
根据页面地址封装url，让其可以输入“城市”和“岗位”进行爬取。
3、解析页面
返回的是一个json格式，而且是post方法，但是在post的时候，页面的翻页地址实际上也会发生变化，只是并不会显示出来，所以我们通过改变这个pn实现翻页。
在这里插入图片描述
4、解析详情页的地址
详情页地址解析这里也有个坑，就是也需要带上第一步的cookies，否则只能爬取5条详情页，后面的地址就会不一样，导致无法爬取。

另外，详情页的地址里面还带有一个sid，是在解析职位列表的时候附带的一个showid，至于是否一定要这个，还不是很清楚，但是我爬取详情页的时候把它也附带上了，所以详情页的地址如下。
在这里插入图片描述
一个是构造的url，另一个是response.url，通过对比两个url的地址不同才发现这个cookies的问题。
5、保存到csv
这一步就没什么好说的了，通过追加的方式逐条保存到csv文件中。这样有个问题就是每一次都有一个标题行，在csv文件中需要手动删除才行。

当然也可以先保存到字典列表，然后一次性，然后用pandas.to_excel的方法一次性写入到excel中，就不会出现上面的问题。

完整代码如下：

#coding:utf-8

import requests
import csv,time
from lxml import etree

def GetCookie():
    url = 'https://www.lagou.com/jobs/list_%E8%BF%90%E8%90%A5/p-city_213?&cl=false&fromSearch=true&labelWords=&suginput='
    # 注意如果url中有中文，需要把中文字符编码后才可以正常运行
    headers = {
   
        'User-Agent': 'ozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3704.400 QQBrowser/10.4.3587.400'
    }
    response = requests.get(url=url,headers=headers,allow_redirects=False)
    # cookies = requests.utils.dict_from_cookiejar(response.cookies)
    return  response.cookies

def GetData(page,kd,url):
    headers = {
   
        'Host': 'www.lagou.com',
        'Origin': 'https://www.lagou.com',
        'Referer': 'https://www.lagou.com/jobs/list_%E8%BF%90%E8%90%A5?labelWords=&fromSearch=true&suginput=',
        'User-Agent': 'ozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537

最低0.47元/天解锁文章

sola237

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
8
评论
记录最新拉勾网职位和详情页的爬取

拉勾网职位和详情页爬取拉勾网爬虫是异步加载方式，先访问初始页面得到cookie，再用cookie去爬取职位详情页面。这里参考的是另外一篇文字的做法，开始自己走了很多弯路。原文链接暂时找不到了，后面看到会再贴上来。爬取过程：1、创建获取cookie的函数2、main主程序根据页面地址封装url，让其可以输入“城市”和“岗位”进行爬取。3、解析页面返回的是一个json格式，而且是pos...
复制链接

扫一扫