python爬取天猫商品信息

本文介绍了如何使用Python爬取天猫商品信息,包括商品名、价格、月销量、评论数、人气值和店铺评分。通过分析网址规律实现翻页,使用XPath提取静态信息,结合正则表达式处理动态加载的数据,如人气值。同时,文章提到针对反爬机制的应对策略以及获取评论等更多详情的方法。
摘要由CSDN通过智能技术生成

python爬取天猫商品信息
主要信息有:商品名,价格,月销量,评论数,人气值,店铺评分

以智能手机为例!
首先,发掘网址规律:

在这里插入图片描述

在这里插入图片描述
第二页的网址如上
在这里插入图片描述
第三页的网址如上
注意网址中的数字(靠近中间位置):第二页->60,第三页->120
所以大胆猜测网址的规律就体现在这个数字中
经过尝试,规律确实如此
所以可以通过循环,改变数字的值,访问下一页

代码:

headers = {
   
    'User-Agent':'',

    'Cookie':''
    }

headers代码,user-agent和cookie可以打开任意网页,右键’检查‘,在network文件中查找,复制下来即可
代码:

def gethtml(url,headers):
    try:
        response=requests.get(url,headers=headers)
        #response.encoding='utf-8'
        if response.status_code==200:
            return response.text
        return None
    except RequestException:
        return None

上边的代码块非常通用,可以用来访问很多网页
代码:

    for i in range(20,81):
        price=[]
        name=[]
        sales=[
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值