python3爬虫基础三（爬取js文件）

最新推荐文章于 2024-08-16 23:38:56 发布

爱吃鱼的小丽

最新推荐文章于 2024-08-16 23:38:56 发布

阅读量4.5k

点赞数 1

分类专栏：爬虫文章标签： python ajax json

本文链接：https://blog.csdn.net/weixin_43299529/article/details/105600408

版权

本文介绍了如何使用Python3爬虫抓取JavaScript文件中的信息，以拉勾网搜索职位为例，详细阐述了从查看网页源码找到JSON文件，到解析POST请求数据，处理编码问题，以及应对反爬虫策略的方法。

摘要由CSDN通过智能技术生成

有时候我们要爬取的信息不是通过css文件编写而是在js文件中，所以我们之前的爬虫方法就无法爬取我们想要的信息

现在我们以拉勾网为例，爬取js文件信息

第一步打开拉勾网，搜索python

页面如下：
在这里插入图片描述
第二步，右键点击检查

然后找到positionAjax.json文件，文件右侧就是我们要爬取的内容

在浏览器中打开json.cn网页，将json文件右侧的内容全部复制到json.cn左侧，就可以看到我们要爬取的内容

第三步爬取json文件信息

在json文件的请求头中我们可以看到请求的Method是POST，请求的data内容，然后编写代码
在这里插入图片描述

from urllib import request

url = "https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput="

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
           }

data = {
        'first':'true',
        'pn':1,
        'kd':'python'
        }

req = request.Request(url,headers = headers,data=data,method='POST')
resp =request.urlopen(req)
print(resp.read())

会出现报错信息：

TypeError: can't concat str to bytes

原因：data需要进行encode

修改代码：

from urllib import request,parse
data = {
        'first':'true',
        'pn':1,
        'kd':'python'
        }

req = request.Request(url,header

最低0.47元/天解锁文章

爱吃鱼的小丽

关注

1
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录