天猫商品评论爬虫攻略【基于scrapy框架】（内附词云图绘制代码）

最新推荐文章于 2024-08-09 10:18:08 发布

罗家马德里球迷

最新推荐文章于 2024-08-09 10:18:08 发布

阅读量2.5k

点赞数 3

分类专栏：天猫评论区爬虫写死cookies 词云文章标签：网络爬虫 Python Scrapy 天猫评论区词云

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40825517/article/details/93609426

版权

本文介绍了使用Python Scrapy框架爬取天猫商品评论的详细过程，包括设置反爬策略、定义爬虫规则、解析JSON内容及绘制词云图。在面对阿里云的反爬机制时，作者通过分析Firefox浏览器的cookies找到了解决办法，成功获取了1992条数据，但也发现数据重复问题。

摘要由CSDN通过智能技术生成

目录

简介
网页展示
阿里云的反爬策略
我的反-反爬策略
代码实现
结果展示
词云图绘制
小结与感想

简介

近日因为公司业务需要，领导要求我批量获取一款天猫商城上的商品链接下的评论。虽然我已有超过一年的爬虫实战经验，但是一想到我即将面对的是“阿里云”这一BUG级怪物，头皮不由自主地发麻了。但是秉着“万物皆可爬”的信念，我还是硬着头皮上了。

网页展示

我需要获取的网页链接为天猫商城。
先来看看评论区的模样吧。

正如大家所熟知的，评论栏目十分工整，所有评论都整齐地摆放在了网页当中，而页面末尾还有翻页按钮。一切还似乎是简单的模样。
然而，爬虫界里有一句话可谓是“至理箴言”——你看得到不一定你就能爬得到。这不，当我打开浏览器监听器时就发现了天猫商品的网页采取的都是异步请求方式获得的，评论区的都内容都停放在了类似于
https://rate.tmall.com/list_detail_rate.htm?itemId=537259015354&spuId=694941313&sellerId=2386968451&order=3&currentPage=2&append=0&content=1&tagId=&posi=&picture=&groupId=&ua=098%23E1hvS9vovLIvUvCkvvvvvjiPRFzpsjnmRLFw0jrCPmPZlj3CnLMpljYWn2LwQj3bRphvCvvvvvmCvpvZz2staosNznswUGrfYgsw1aAv7IVrvpvEvCB%2FvNsGv2s22QhvCvvvMMGCvpvVvmvvvhCvKphv8vvvvvCvpvvvvvv2vhCvCjQvvvWvphvW9pvvvQCvpvs9vvv2vhCv2RmEvpvVmvvC9jamuphvmvvv9bcWRGhImphvLvCbXvvjna21Q8oaWLEc34z%2BFfmtEpcUTUoXKFwFxT7YK4vTHkGVqwzaiLu18vmYiR0n%2BbyDCw2IAXZTKFEw9Exrz8TJEcq9afknnbvtvpvhvvvvv8wCvvpvvUmm3QhvCvvhvvmrvpvpjvkJ9wjCvmvIFfwznHVt6OhCvvswMHna3nMwznQY3DItvpvhvvvvvUhCvvswNHBwEaMwzns%2FblItvpvhvvvvv86Cvvyv2h7n1GwvzWy%3D&needFold=0&_ksTS=1561438169812_1139&callback=jsonp1140
这样的链接当中。
可以注意到，链接当中包含着一个currentPage字段，只要通过更改currentPage的值即可实现翻页的效果。

在这里插入图片描述
上图为评论区内容的停放方式。实话说，到目前为止，我还没有体会到阿里云的强大之处到底在哪，根据个人经验，我仍然觉得只要听过递归算法实现翻页、逐个获取就可以完成老板的任务。然而，不到最后一刻真的不能轻易放松啊。

阿里云的反爬策略

通常来讲，如果网站想要反爬，它们通常会从访问者的访问频率入手，只要识别到某个IP发出的请求在某一时间段内极度频繁网站便会认定（如果真的需要反爬的话）该访问者为不友好客户，将该IP封锁请求一段时间。
然而阿里云的高明之处在于它压根不需要设置

最低0.47元/天解锁文章

罗家马德里球迷

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

罗家马德里球迷 CSDN认证博客专家 CSDN认证企业博客

码龄7年

2: 原创

111万+: 周排名

145万+: 总排名

2万+: 访问

: 等级

166: 积分

13: 粉丝

14: 获赞

4: 评论

115: 收藏

私信

关注

热门文章

分类专栏

最新评论

利用LSTM作多元回归预测
yaoyikeke: 楼主，你用的TensorFlow是哪个版本呀
利用LSTM作多元回归预测
ALeidy: 主函数33行设置一个i的循环是不是没有必要
利用LSTM作多元回归预测
Alone姿态: 这个可以算是多元数据的回归预测吗？这个错误是怎么回事啊？ [code=python] def ms_error_square(self, y_pre, y_target): return tf.square(tf.sub(y_pre, y_target)) TypeError: ms_error_square() got an unexpected keyword argument 'labels' [/code]
利用LSTM作多元回归预测
klklklbk: 为什么还要用train_test_split随机切割数据集，而且后面也没见到test_x的使用，然后又用了这个函数kf.split(train_x)再随机分割了数据？博主用lstm解决的不是时序问题？

大家在看

最新文章

利用LSTM作多元回归预测

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。