python爬取天猫商品信息
主要信息有:商品名,价格,月销量,评论数,人气值,店铺评分
以智能手机为例!
首先,发掘网址规律:
第二页的网址如上
第三页的网址如上
注意网址中的数字(靠近中间位置):第二页->60,第三页->120
所以大胆猜测网址的规律就体现在这个数字中
经过尝试,规律确实如此
所以可以通过循环,改变数字的值,访问下一页
代码:
headers = {
'User-Agent':'',
'Cookie':''
}
headers代码,user-agent和cookie可以打开任意网页,右键’检查‘,在network文件中查找,复制下来即可
代码:
def gethtml(url,headers):
try:
response=requests.get(url,headers=headers)
#response.encoding='utf-8'
if response.status_code==200:
return response.text
return None
except RequestException:
return None
上边的代码块非常通用,可以用来访问很多网页
代码:
for i in range(20,81):
price=[]
name=[]
sales=[