用户代理
你需要关心的第一件事是设置用户代理。 用户代理是用户访问的工具,并告知服务器用户正在使用哪个网络浏览器访问网站。 如果未设置用户代理,许多网站不会让你查看内容。 如果你正在使用rquests库,可以执行如下操作:
headers={
‘user-agent’:‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36’,
}
r=requests.get(‘example.com’,headers=headers)
你可以通过在 Google 搜索栏中输入 User-Agent 来获取用户代理的信息,并且它会返回你当前的用户代理信息。
现在,你已经有了一个用户代理,但如何去使用它? 那么,最好的方法是从文本文件、数据库、Python 的列表中选择一个随机的 User-Agent 。 Udger 分享了大量的 UA w.r.t 浏览器。 比如,对于 Chrome 而言,它看起来像这样,对 Firefox 来说,又像这样。 现在让我们来创建一个函数,它将返回一个随机 UA ,你可以在请求中使用:
importnumpyasnp
defget_random_ua():
random_ua=’’