在爬取网页时,由于会遇到登录问题而被阻止,此时通过改变头部信息来解决此问题
以爬取京东商品页面为例
1、先登录京东账号
2、摁F12进入调试页面,然后刷新页面,在Network栏中的第一行会出现一个document文件
3、在那个文件上点右键,Copy→Copy as cURL(bash)
4、进入网站 https://curl.trillworks.com/# 将curl command转为Python requests如图
5、复制右侧的headers信息,放到代码中,并在get方法中添加headers = headers来修改
import requests
url = "https://search.jd.com/Search?keyword=%E5%B1%B1%E5%9C%B0%E8%BD%A6&qrst=1&wq=%E5%B1%B1%E5%9C%B0%E8%BD%A6&