python3爬虫基础三(爬取js文件)

本文介绍了如何使用Python3爬虫抓取JavaScript文件中的信息,以拉勾网搜索职位为例,详细阐述了从查看网页源码找到JSON文件,到解析POST请求数据,处理编码问题,以及应对反爬虫策略的方法。
摘要由CSDN通过智能技术生成

有时候我们要爬取的信息不是通过css文件编写而是在js文件中,所以我们之前的爬虫方法就无法爬取我们想要的信息

现在我们以拉勾网为例,爬取js文件信息

第一步打开拉勾网,搜索python

页面如下:
在这里插入图片描述
第二步,右键点击检查
在这里插入图片描述
然后找到positionAjax.json文件,文件右侧就是我们要爬取的内容
在这里插入图片描述
在浏览器中打开json.cn网页,将json文件右侧的内容全部复制到json.cn左侧,就可以看到我们要爬取的内容
在这里插入图片描述
第三步爬取json文件信息

在json文件的请求头中我们可以看到请求的Method是POST,请求的data内容,然后编写代码
在这里插入图片描述
在这里插入图片描述

from urllib import request

url = "https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput="

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
           }

data = {
        'first':'true',
        'pn':1,
        'kd':'python'
        }

req = request.Request(url,headers = headers,data=data,method='POST')
resp =request.urlopen(req)
print(resp.read())

会出现报错信息:

TypeError: can't concat str to bytes

原因:data需要进行encode

修改代码:

from urllib import request,parse
data = {
        'first':'true',
        'pn':1,
        'kd':'python'
        }

req = request.Request(url,header
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值