昨天刚开始接触网络爬虫,根据网上的好评我选择了火车头V9版本的爬虫。
一开始是冲着它友好的综合的傻瓜操作页面去的,谁知要完成一个基本的京东商品评论任务也并没有想象中的那么简单。
1.首先在起始网址添加向导这一步就被坑了,
因为现在看京东评论一般都是直接在商品页面看,http://item.jd.com/11439336.html,但这个网址是用json技术渲染的,
通过这个技术可以根据用户操作如第二页上一页这些操作进行动态的数据包抓取和更新,因此比较难制定相应的规则,我
在参考了下面这个抓取价格的教程后还是操作起来不如人意,http://item.jd.com/11439336.html(以后学习json)
直到我发现了历年师兄做的一个关于抓评论的文档,我才发现有专门的评论页,而且有相对应的规则,
http://club.jd.com/review/11439336-0-[地址参数]-0.html,这个问题才算得以解决
2.第二个问题是没有勾选每个字段的循环匹配,导致采集相同格式的评论时,每次收集完才采集到几个
3.第三个问题是没有在默认的输出txt文档样式中进行修改,导致每次输出的东西都是之前设定的【标签:标题】【标签:内容】
4.还有一个问题是,如果在发现上述问题后修改配置重新采集时,必须要进行清空采集数据这一操作,否则它会不工作,报信息
说采集到样本0
×5.发现的一个新问题是,京东的用户id的html标签有多种,在不熟悉正则表达式的情况下,只能采集到相关的评论文本,并不能
采集全用户的id,因此造成了用户id与用户评论的不一一对应,另外火车头对评论的采集次序好像并不是按照网页上看到的评论
次序,这个问题留待以后研究