现在的电商平台的商品琳琅满目,咱们足不出户就可以淘到性价比很好的尖货。但是东西多了大家不免要比较一番,这个时候看看商品粉丝的评论就尤其重要。
接下来一步步给大家介绍怎样获取评论的数据来供我们分析,以天猫查找李子柒的螺蛳粉为例。
第一,登录网站找到目标页面。
登录天猫,搜索“李子柒螺蛳粉”,点击一款推荐商品进入详细页,见图1。
第二,找到要爬取的目标的数据项。
点击F12进入开发者界面。前后翻阅几页评论文字后,会发现开发者界面Network标签页,下面出现了很多内容。认真观察一下,发现list开头的数据项就是包含的评论内容,见图2。
仔细分析一下传入参数,发现主要变化的就是2个参数:currentPage(评论的页数)和callback(回调的标志)。评论的页数可以通过迭代来依次增加,回调标志没有实际意义,可以写死。
这样,访问的URL地址就确定了。
第三,写代码获取数据。
接下来进而到了python的编程环节。
首先是构造URL地址和参数。主要步骤包括了URL构造、Headers构造,然后就是requests.get获取数据,最后是re.findall提取数据和json.loads转化为json格式。以上就获取到了一页的评论数据。
然后就是获取你赶兴趣的字段内容了。比如你关心评论粉丝的名字、评论时间、评论内容、商品类型等。
最后把获取到了内容存储起来。获取到的数据像图4这样。
一般来说为了模拟人登录真实一点,每个迭代程序最好设置间隔时间,比如这样:
time.sleep(5)#
休眠5秒。
以上就完成了电商平台的用户评论数据获取,是不是很简单呢?
关注公众号【科技爸遇到文艺妈】,头条号【科技爸】,了解更多干货好文。