关于火车头网络爬虫的几个常见问题

最新推荐文章于 2024-03-18 13:57:14 发布

bla234

最新推荐文章于 2024-03-18 13:57:14 发布

阅读量9.2k

点赞数 1

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bla234/article/details/50875940

版权

数据挖掘专栏收录该内容

2 篇文章 0 订阅

订阅专栏

昨天刚开始接触网络爬虫，根据网上的好评我选择了火车头V9版本的爬虫。

一开始是冲着它友好的综合的傻瓜操作页面去的，谁知要完成一个基本的京东商品评论任务也并没有想象中的那么简单。

1.首先在起始网址添加向导这一步就被坑了，

因为现在看京东评论一般都是直接在商品页面看，http://item.jd.com/11439336.html，但这个网址是用json技术渲染的，

通过这个技术可以根据用户操作如第二页上一页这些操作进行动态的数据包抓取和更新，因此比较难制定相应的规则，我

在参考了下面这个抓取价格的教程后还是操作起来不如人意，http://item.jd.com/11439336.html（以后学习json）

直到我发现了历年师兄做的一个关于抓评论的文档，我才发现有专门的评论页，而且有相对应的规则，

http://club.jd.com/review/11439336-0-[地址参数]-0.html，这个问题才算得以解决

2.第二个问题是没有勾选每个字段的循环匹配，导致采集相同格式的评论时，每次收集完才采集到几个

3.第三个问题是没有在默认的输出txt文档样式中进行修改，导致每次输出的东西都是之前设定的【标签：标题】【标签：内容】

4.还有一个问题是，如果在发现上述问题后修改配置重新采集时，必须要进行清空采集数据这一操作，否则它会不工作，报信息

说采集到样本0

×5.发现的一个新问题是，京东的用户id的html标签有多种，在不熟悉正则表达式的情况下，只能采集到相关的评论文本，并不能

采集全用户的id，因此造成了用户id与用户评论的不一一对应，另外火车头对评论的采集次序好像并不是按照网页上看到的评论

次序，这个问题留待以后研究

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
关于火车头网络爬虫的几个常见问题

昨天刚开始接触网络爬虫，根据网上的好评我选择了火车头V9版本的爬虫。一开始是冲着它友好的综合的傻瓜操作页面去的，谁知要完成一个基本的京东商品评论任务也并没有想象中的那么简单。1.首先在起始网址添加向导这一步就被坑了，因为现在看京东评论一般都是直接在商品页面看，http://item.jd.com/11439336.html，但这个网址是用json技术渲染的，通过这个技术可以
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。