火车头采集器用法说明

mingyuexingzuo

已于 2022-05-13 21:46:55 修改

阅读量7.9k

点赞数

文章标签：大数据

于 2022-05-13 21:46:19 首次发布

原文链接：http://www.kaobaidu.com/1391.html?1652449519

版权

1. 打开火车头采集软件

这个页面是采集启示网址列表页面的，获取规则根据页面规则来进行提取。

可以选择自动获取地址链接，也可以选择手动设置规则获取，我个人推荐手动设置规则获取，这样会更准确一些。

链接过滤的意思是，不得包含xxx的存在，和必须包含xxx 的存在，比如我们采集一个页面了，他会有很多链接有后缀aspx的链接，也存在html的后缀里面，我们只想采集html的链接，就可以在必须包含里面填上，html这样采集出来的链接火车头就会自动把aspx过滤掉只留下html 的链接。

2. 内容页采集

这个规则太多了，正常采集，就填写目标内容页源代码里面你想取的内容，可以前后截取也可以使用正则提取。

内容分页就比如一个内容页他会存在下一页，这时候把分页规则写进去，也就会自动采集分页内容。

循环设置，比如问答会有很多人回答，我们想采集全部用户回答，就设置好规则，然后

循环匹配勾选上，他就会默认去除当前内容页的所有匹配的内容。

关联多页、等等这些操作的灵活性都很大，具体没有系统化的教程。

3. 内容发布

内容发布这块，需要你写采集模块或者网上有很多关于开源cms 的模块，wp、zblog、yiyou、帝国、等等。

4. 火车头的其他设置

任务运行线程及时间，可以自行选择，线程数指的数多线程的运行，可以同时进行采集。

http请求设置，是可以填写cookie，ua，标头的设置。

文件图片下载，是填写采集时的图片下载。

ftp文件上传这里，需要你在宝塔或者ftp空间账号密码地址填写即可。

代理设置填写你的代理，我一般喜欢直接用本地代理。

插件有内容处理插件，请求http插件，还有下载处理插件等等。

排除重复设置，是采集过的内容自动过滤。

发布相关可以选择先采集后发布，或者采集的同时发布。

其他设置的内容基本上用不到，根据个人所需，我是用不到。

转火车头采集器用法说明 - 靠佰度1. 打开火车头采集软件这个页面是采集启示网址列表页面的，获取规则根据页面规则来进行提取。可以选择自动获取地址链接，也可以选择手动设置规则获取，我个人推荐手动设置规则获取，这http://www.kaobaidu.com/1391.html?1652449519

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
火车头采集器用法说明

1.打开火车头采集软件这个页面是采集启示网址列表页面的，获取规则根据页面规则来进行提取。可以选择自动获取地址链接，也可以选择手动设置规则获取，我个人推荐手动设置规则获取，这样会更准确一些。链接过滤的意思是，不得包含xxx的存在，和必须包含xxx 的存在，比如我们采集一个页面了，他会有很多链接有后缀aspx的链接，也存在html的后缀里面，我们只想采集html的链接，就可以在必须包含里面填上，html这样采集出来的链接火车头就会自动把aspx过滤掉只留下html 的链接。2.内容页采集..
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。