利用Python抓取亚马逊评论列表数据

最新推荐文章于 2024-07-24 11:41:15 发布

weixin_34082789

最新推荐文章于 2024-07-24 11:41:15 发布

阅读量5k

点赞数 2

文章标签： python 爬虫 lua

原文链接：http://www.cnblogs.com/zhong-dev/p/4264198.html

版权

　　前段时间，我家妹子公司老板叫她去将法国亚马逊评论列表的前100页共1000个评论用户的联系方式找出来。1000个用户，要一个个的去看再记录下来，而且并不是每个评论用户都会将个人的联系方式留下来。那么问题来了，这样费时费力的工作如果人工去做的话，那么就是花了两天的时间也就找了前30页的数据(还有别的工作要做)，然后累的够呛的。本着心疼的原则(程序猿能找到妹子就很不错了，所以得心疼着)，就想帮着她做点事。

　　我本身的工作是做游戏客户端开发的，主要使用的开发语言是lua和c++，并没有接触过网页、网站相关的工作。只是工作中有用到过python脚本，然后有一次在网上查python的相关资料的时候，有看到网友用python写爬虫干点事的。所以我就想，我是否也能够实用python来写爬虫去亚马逊的网站抓取数据呢？就这样现学现用的开始敲起代码来了。

环境：

　　windows7

　　python：2.7

利用的python插件：

　　urllib2、urllib插件，用了打开网页链接；

　　re插件，用来做正则匹配；

　　codecs插件，用来做编码转换及数据保存。

目前实现的功能：

　　抓取法国亚马逊top-viewer列表前100页共1000个用户的姓名、联系方式(网站链接或者邮箱)、国籍(可能有卢森堡、瑞士的买家在法国亚马逊购买)、用户评论详细页面的链接等数据。

　　通过抓取法国亚马逊top-viewer列表数据，进而扩展到抓取中国亚马逊、美国亚马逊top-viewer列表的数据。理论上通过简单的修改可以抓取不同国家亚马逊top-viewer列表的数据。

需改进的地方：

　　代码写好之后，抓取数据的过程中发现效率好低，1000个数据需要花费很长的时间才能抓取完，而且抓取了几页或者几十页之后程序就跑不动了，卡住只能关掉再开。当时在没有扩展到抓取中国、美国亚马逊的数据之前，我想到的可能原因有：

正则表达式有优化空间，因为我之前没有接触过正则表达式，没有使用过；
法国亚马逊网站在国内访问速度慢，影响到了数据的抓取；
python没有系统的学过，在一些语法或者第三方辅助插件的使用上不够熟悉。

　　以上三点是我想到的造成抓取效率低下的可能的原因。后来我把同一套代码扩展到抓取中国、美国亚马逊的数据，以验证第二条原因对整个抓取工作的影响程度，结果发现影响非常大！同样的带宽、硬件条件下，中国、美国的前100页共1000个评论用户，抓取大概花了半个多小时，而抓取法国的那

最低0.47元/天解锁文章

weixin_34082789

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
利用Python抓取亚马逊评论列表数据

　　前段时间，我家妹子公司老板叫她去将法国亚马逊评论列表的前100页共1000个评论用户的联系方式找出来。1000个用户，要一个个的去看再记录下来，而且并不是每个评论用户都会将个人的联系方式留下来。那么问题来了，这样费时费力的工作如果人工去做的话，那么就是花了两天的时间也就找了前30页的数据(还有别的工作要做)，然后累的够呛的。本着心疼的原则(程序猿能找到妹子就很不错了，所以得心疼着)，就想帮着她...
复制链接

扫一扫