python 伪装浏览器爬不了信息_python爬虫伪装浏览器发送获取不到信息,反而去掉伪装就获取到了?...

classPaChong(object):def__init__(self):self.tiebaName="python"self.page=1self.end=3self.url="https://tieba.baidu.com/f?"self.header={"User-Agent":"Mozilla/5.0(WindowsNT6....

class PaChong(object):def __init__(self):self.tiebaName = "python"self.page = 1self.end = 3self.url = "https://tieba.baidu.com/f?"self.header = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}self.fileName = 1#构造初始urldef tiebaUrl(self):for i in range(self.page,self.end+1):pn = (i-1)*50wo = {'pn':pn,'kw':self.tiebaName}word = urllib.parse.urlencode(wo)myurl = self.url+word#print(myurl)self.biaoTi(myurl)#根据url爬取每个标题链接def biaoTi(self,url):req = request.Request(url,headers=self.header) data = request.urlopen(req).read()#print(data.decode())html = etree.HTML(data)#print(html.text)data1 = html.xpath('//div[@class="threadlist_lz clearfix"]/div/a/@href')#print(data1)#用for循环构造每个链接for x in data1:myurl1 = "https://tieba.baidu.com"+x#print(myurl1)self.lianJie(myurl1)

展开

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值