伪装浏览器
- 对与一些需要登录的网站,如果不是从六七发出的请求,则得不到响应。所以,我们需要将爬虫程序法出请求伪装成浏览器正规军
- 具体实现:自定义网页请求报头(详细介绍)
使用Fiddle查看请求和响应报头
打开下载好的工具Fiddler,然后在浏览器访问“https://www.douban.com/”,在Fiddle左侧访问记录中,找到“200 HTTP www.douban.com”这一条,点击查看对应的请求和响应报头的具体内容,截图如下:
访问豆瓣
通过自定义请求报头与上图的Request Headers相同内容:
import urllib.request
#定义保存文件的函数
def saveFile(data):
path="E:\\python\\douban.out"
f=open(path,'wb')
f.write(data)
f.colse()
#网址
url="https://www.douban.com/"
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10