python urllib3修改useragent_在使用urllib和python3进行抓取时,添加头(useragents)的正确方法是什么?...

我正在尝试在python3中使用urllib和beauthoulsoup添加一个用户代理。这是我的密码import bs4 as bs

import urllib.request

import urllib.parse

from random import choice

from time import sleep

import os

user_agents = [

'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11',

'Opera/9.25 (Windows NT 5.1; U; en)',

'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)',

'Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)',

'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.142 Safari/535.19',

'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.7; rv:11.0) Gecko/20100101 Firefox/11.0',

'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:8.0.1) Gecko/20100101 Firefox/8.0.1',

'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.151 Safari/535.19'

]

allUrlData = ['www.bbc.co.uk/news','http://www.bbc.co.uk/news/world']

r = range(2,4)

for url in allUrlData:

sleep(choice(r))

version = choice(user_agents)

headers = {'User-Agent': version}

req = urllib.request.Request(url, None, headers)

htmlText = urllib.request.urlopen(req).read()

soup = bs.BeautifulSoup(htmlText, 'lxml')

当我将req对象传递给urlopen()方法时,它是否仍包含用户代理,我有点困惑。在

这段代码能正常工作并通过用户代理吗?在

我不需要使用Request.add_header(key, val)来使其正常工作吗?在

非常感谢你的帮助。在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值