火车头采集器用法说明

1. 打开火车头采集软件

这个页面是采集启示网址列表页面的,获取规则根据页面规则来进行提取。

可以选择自动获取地址链接,也可以选择手动设置规则获取,我个人推荐手动设置规则获取,这样会更准确一些。

链接过滤的意思是,不得包含xxx的存在,和必须包含xxx 的存在,比如我们采集一个页面了,他会有很多链接有后缀aspx的链接,也存在html的后缀里面,我们只想采集html的链接,就可以在必须包含里面填上,html这样采集出来的链接火车头就会自动把aspx过滤掉只留下html 的链接。

2. 内容页采集

这个规则太多了,正常采集,就填写目标内容页源代码里面你想取的内容,可以前后截取也可以使用正则提取。

内容分页就比如一个内容页他会存在下一页,这时候把分页规则写进去,也就会自动采集分页内容。

循环设置,比如问答会有很多人回答,我们想采集全部用户回答,就设置好规则,然后

循环匹配勾选上,他就会默认去除当前内容页的所有匹配的内容。

关联多页、等等这些操作的灵活性都很大,具体没有系统化的教程。

3. 内容发布

内容发布这块,需要你写采集模块或者 网上有很多关于开源cms 的模块,wp、zblog、yiyou、帝国、等等。

4. 火车头的其他设置

任务运行线程及时间,可以自行选择,线程数指的数多线程的运行,可以同时进行采集。

http请求设置,是可以填写cookie,ua,标头的设置。

文件图片下载,是填写采集时的图片下载。

ftp文件上传这里,需要你在宝塔或者ftp空间账号密码地址填写即可。

代理设置填写你的代理,我一般喜欢直接用本地代理。

插件有内容处理插件,请求http插件,还有下载处理插件等等。

排除重复设置,是采集过的内容自动过滤。

发布相关可以选择先采集后发布,或者采集的同时发布。

其他设置的内容基本上用不到,根据个人所需,我是用不到。

火车头采集器用法说明 - 靠佰度1. 打开火车头采集软件 这个页面是采集启示网址列表页面的,获取规则根据页面规则来进行提取。 可以选择自动获取地址链接,也可以选择手动设置规则获取,我个人推荐手动设置规则获取,这http://www.kaobaidu.com/1391.html?1652449519

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值