5 个用 Python 编写非阻塞 web 爬虫的方法

用户代理

image

你需要关心的第一件事是设置用户代理。 用户代理是用户访问的工具,并告知服务器用户正在使用哪个网络浏览器访问网站。 如果未设置用户代理,许多网站不会让你查看内容。 如果你正在使用rquests库,可以执行如下操作:

headers={

‘user-agent’:‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36’,

}

r=requests.get(‘example.com’,headers=headers)

你可以通过在 Google 搜索栏中输入 User-Agent 来获取用户代理的信息,并且它会返回你当前的用户代理信息。

现在,你已经有了一个用户代理,但如何去使用它? 那么,最好的方法是从文本文件、数据库、Python 的列表中选择一个随机的 User-Agent 。 Udger 分享了大量的 UA w.r.t 浏览器。 比如,对于 Chrome 而言,它看起来像这样,对 Firefox 来说,又像这样。 现在让我们来创建一个函数,它将返回一个随机 UA ,你可以在请求中使用:

importnumpyasnp

defget_random_ua():

random_ua=’’

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值