个人在爬虫时遇到的问题,在此记录一下
- 看看请求时携带 cookie 了没
具体cookie,根据具体网页分析
import requests
cookies = {...}
headers = {...}
resp = requests.get(url=url, headers=headers, cookies=cookies)
- 有可能时请求头里携带了某些字段
# 有些网站需要携带特殊的值
例如:
headers = {
'x-requested-with': 'XMLHttpRequest'
}
有些网站设置了 只允许 本网站访问,这时注意 referer, 请求头里携带一个 referer 即可:
headers = {
'referer': 'https://www.justeasy.cn/3d/id-389563.html'
}
resp = requests.get(url=url, headers=headers)
如果实在分析不出来是那些值需要携带,那么直接复制所有的请求头,再一个个排除。。。,将 Request Headers 里的东西 全部放到headers