有时候爬取一些网站会出现403的错误,因为这些网站采取了一些反爬设置。
我们可以让爬虫模拟成浏览器去登录
怎么模拟成浏览器呢 - -User-Agent信息
打开一个网页,进入调试模式,点击Network选项卡,按一下F5,刷新一下,然后在name列表中,随便找一个网址点击
,
Header选项卡,往下拉,找到一个User-Agent的信息,如果没有的话,换一个网址找
得到信息 User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.78 Safari/537.36
有两种方法让爬虫模拟承浏览器访问网页的设置方法