一、分析需要爬取的页面
淘宝的商品评价信息在商品详情页面,需要登录淘宝后,访问到商品详情页,并且需要点击“宝贝评价”才能看到相应的商品评价信息。
我们还是要通过chrome浏览器的调试模式来分析需要点击哪个页面元素才能看到具体的评价信息。通过分析可以得知要点击<div class="Tabs--title--1Ov7S5f Tabs--active--2TTlc9s"><span data-spm-anchor-id="pc_detail.27183998/evo365560b447259.202205.i0.65b87dd6RabS41">宝贝评价</span><div class="Tabs--line--1ibdRMv"></div></div>
这个元素才能进行切换到宝贝评价。
分析完页面后,就可以开始思考如何编码了。
二、实现爬取商品评价信息的代码
通过上面的分析,我们要获取商品评价信息,需要让Selenium进行模拟登录->访问商品列表页面->访问商品详情页面->点击“宝贝评价”->获取并解析商品评价信息。
这里主要介绍后面的部分,访问商品详情页面->点击“宝贝评价”->获取并解析商品评价信息。
获取并解析商品评价信息有两种方式,一种是通过解析显示评价信息的元素获取,一种是通过mitmproxy代理进行流量抓包获取。
taobao.item_review 获取淘宝商品评论数据 翻页展示 API调用地址
公共参数
名称 | 类型 | 必须 | 描述 |
---|---|---|---|
key | String | 是 | 调用key(必须以GET方式拼接在URL中) |
secret | String | 是 | 调用密钥 |
api_name | String | 是 | API接口名称(包括在请求地址中)[item_search,item_get,item_search_shop等] |
cache | String | 否 | [yes,no]默认yes,将调用缓存的数据,速度比较快 |
result_type | String | 否 | [json,jsonu,xml,serialize,var_export]返回数据格式,默认为json,jsonu输出的内容中文可以直接阅读 |
lang | String | 否 | [cn,en,ru]翻译语言,默认cn简体中文 |
version | String | 否 | API版本 |
请求参数
请求参数:num_iid=600530677643&data=&page=1
参数说明:num_iid:淘宝商品ID
sort:排序 0:默认排序 ,1: 最新排序
响应参数
Version: Date:
名称 | 类型 | 必须 | 示例值 | 描述 |
---|---|---|---|---|
rate_content | String | 0 | 衣服面料很好 穿起来很舒服 衣服挺合适的! | 评论内容 |
rate_date | Date | 0 | 2019-03-16 12:10:24 | 评论日期 |
pics | MIX | 0 | ["//img.alicdn.com/bao/uploaded/i4/O1CN01Zmq4QI1dqwnpBIxmX_!!0-rate.jpg"] | 评论图片 |
display_user_nick | String | 0 | 李***0 | 买家昵称 |
auction_sku | String | 0 | 颜色:加绒;尺码:2XL | 评论商品属性 |
add_feedback | String | 0 | 衣服面料很好 穿起来很舒服 衣服挺合适的! | 追评内容 |
add_feedback_images | MIX | 0 | ["//img.alicdn.com/bao/uploaded/i4/O1CN01Zmq4QI1dqwnpBIxmX_!!0-rate.jpg"] | 追评图片 |
video | String | 0 | http://cloud.video.taobao.com/play/u/416a306c576e44524a75367539493165745863466b513d3d/p/1/d/sd/e/6/t/1/288913501300.mp4 | 视频地址 |