python爬取天猫评论_爬取天猫评论,每次爬取的数据量都不一样,求大神解答

本文介绍了一个使用Python爬取天猫商品评论的代码实现,通过requests库获取网页内容并使用正则表达式解析数据。然而,每次运行爬虫时,获取到的评论数量都不一致,可能是由于反爬虫机制导致。作者寻求有经验的开发者帮助分析问题所在,究竟是代码问题还是天猫的反爬策略。
摘要由CSDN通过智能技术生成

import requests

import re

urls = []

for i in list(range(1,51)):

urls.append('https://rate.tmall.com/list_detail_rate.htm?itemId=523840172328&spuId=457482192&sellerId=2260385300&order=1&currentPage=%s'%i)

username=[]

auctionSku=[]

rateContent=[]

rateDate=[]

goldUser=[]

headers={'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36',

'accept-encoding':'gzip, deflate, br',

'accept-language':'zh-CN,zh;q=0.8'

}

for url in urls:

content = requests.get(url,headers=headers).text

username.extend(re.findall('"displayUserNick":"(.*?)"',content))

auctionSku.extend(re.findall(re.compile('"auctionSku":"(.*?)","auctionTitle"'),content))

rateContent.extend(re.findall(re.compile('"rateContent":"(.*?)","rateDate"'),content))

rateDate.extend(re.findall(re.compile('"rateDate":"(.*?)","reply"'),content))

goldUser.extend(re.findall(re.compile('"goldUser":(\w+),"id":'),content))

print(username)

#然后打印每个字段的长度

a=[username,rateContent,rateDate,auctionSku,goldUser]

for i in range(5):

print(len(a[i]))

上面的爬虫代码试了好几次,每次爬取后面打印出来的字段长度都不一样,正常打印出来是爬取的页数*每页的20条,但每次都少几页的样子,一会儿多一会儿少的,不知道这是我代码问题还是传说中天猫的反爬虫造成的,各位有经验的朋友麻烦指点指点,谢谢!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值