关于火车头网络爬虫的几个常见问题

昨天刚开始接触网络爬虫,根据网上的好评我选择了火车头V9版本的爬虫。

一开始是冲着它友好的综合的傻瓜操作页面去的,谁知要完成一个基本的京东商品评论任务也并没有想象中的那么简单。


1.首先在起始网址添加向导这一步就被坑了,

因为现在看京东评论一般都是直接在商品页面看,http://item.jd.com/11439336.html,但这个网址是用json技术渲染的,

通过这个技术可以根据用户操作如第二页上一页这些操作进行动态的数据包抓取和更新,因此比较难制定相应的规则,我

在参考了下面这个抓取价格的教程后还是操作起来不如人意,http://item.jd.com/11439336.html(以后学习json)


直到我发现了历年师兄做的一个关于抓评论的文档,我才发现有专门的评论页,而且有相对应的规则,

http://club.jd.com/review/11439336-0-[地址参数]-0.html,这个问题才算得以解决


2.第二个问题是没有勾选每个字段的循环匹配,导致采集相同格式的评论时,每次收集完才采集到几个


3.第三个问题是没有在默认的输出txt文档样式中进行修改,导致每次输出的东西都是之前设定的【标签:标题】【标签:内容】


4.还有一个问题是,如果在发现上述问题后修改配置重新采集时,必须要进行清空采集数据这一操作,否则它会不工作,报信息

说采集到样本0


×5.发现的一个新问题是,京东的用户id的html标签有多种,在不熟悉正则表达式的情况下,只能采集到相关的评论文本,并不能

采集全用户的id,因此造成了用户id与用户评论的不一一对应,另外火车头对评论的采集次序好像并不是按照网页上看到的评论

次序,这个问题留待以后研究

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值