有时候我们要爬取的信息不是通过css文件编写而是在js文件中,所以我们之前的爬虫方法就无法爬取我们想要的信息
现在我们以拉勾网为例,爬取js文件信息
第一步打开拉勾网,搜索python
页面如下:
第二步,右键点击检查
然后找到positionAjax.json文件,文件右侧就是我们要爬取的内容
在浏览器中打开json.cn网页,将json文件右侧的内容全部复制到json.cn左侧,就可以看到我们要爬取的内容
第三步爬取json文件信息
在json文件的请求头中我们可以看到请求的Method是POST,请求的data内容,然后编写代码
from urllib import request
url = "https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput="
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
}
data = {
'first':'true',
'pn':1,
'kd':'python'
}
req = request.Request(url,headers = headers,data=data,method='POST')
resp =request.urlopen(req)
print(resp.read())
会出现报错信息:
TypeError: can't concat str to bytes
原因:data需要进行encode
修改代码:
from urllib import request,parse
data = {
'first':'true',
'pn':1,
'kd':'python'
}
req = request.Request(url,header