最大化参数火车头_新手必看的火车头采集器使用入门教程_图文解说版！（看完包会）...

最新推荐文章于 2023-09-27 11:19:26 发布

码畜武哥

最新推荐文章于 2023-09-27 11:19:26 发布

阅读量1.4k

点赞数

文章标签：最大化参数火车头

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31240135/article/details/111946310

版权

本文资料来源：火车头采集器官网，但是讲解说明远优于官网！总结到位，重点解说明确—明月SEO

上一篇我们讲到了：火车头采集器使用图文教程以及重点问题整理！本文将以一个简单的实测案例来说明，从而对重点问题进行细致入微的由浅入深的讲解。

下面我们通过一个简单的文章规则制作，来实战说明

通过采集faq为例来说明采集器采集的原理和过程。本例以 http://faq.locoy.com/qc-12.html 演示地址。

一.新建个采集规则

选择一个分组上右击，选择“新建任务”，如下图：

二.添加起始网址

在这里我需要采集 5页数据。分析网址变量规律：

第一页地址：http://faq.locoy.com/qc-12.html?p=1

第二页地址：http://faq.locoy.com/qc-12.html?p=2

第三页地址：http://faq.locoy.com/qc-12.html?p=3

由此我们可以推算出p=后的数字就是分页的意思，我们用[地址参数]表示：

所以设置如下:

地址格式：把变化的分页数字用[地址参数]表示。

数字变化：从1开始，即第一页；每次递增1，即每次分页的变化规律数字；共5项，即一共采集5页。

预览：采集器会按照上面设置的生成一部分网址，让你来判读添加的是否正确。

然后确定即可

【明月SEO总结】

设置网址规则的第一步是分析确认采集目标网站栏目列表页的页面URL规律(是纯列表页)

三.[常规模式]获取内容网址

常规模式：该模式默认抓取一级地址，即从起始页源代码中获取到内容页A链接。

在这里给大家演示用自动获取地址链接 +设置区域的方式来获取。

查看页面源代码找到文章地址所在的区域：

设置如下：

注：更详细的分析说明可以参考官网帮助手册：操作指南 > 软件操作 > 网址采集规则 > 获取内容网址

点击网址采集测试，看看测试效果

四.采集网址内容规则

注：更详细的分析说明可以参考本帮助手册：操作指南 > 软件操作 > 内容采集规则 > 标签编辑

我们首先查看它的页面源代码，找到我们“标题”所在位置的代码：

导入Excle是跳出对话框~打开Excle出错 - 火车采集器帮助中心

分析得出：开头字符串为：

结尾字符串为：数据处理——内容替换/排除：需要把- 火车采集器帮助中心给替换为空

内容标签的设置原理也是类似的，找到内容所在源码中的位置

分析得出：开头字符串为：

结尾字符串为：

数据处理——HTML标签排除：把不需要的A链接等过滤

再设置个“来源”字段

【明月SEO总结】

1.第一步：分析出列表页分页的页码规律。并设置写出采集目标网站栏目列表页的页面URL规律(是纯列表页)

2.第二步：分析出列表页单页面全部链接的前后代码标签，并设置采集此列表网址链接的规则。

3.第三步：分析出文章内容的前后代码标签，并设置内容的采集规则

注意：是从文章的正文内容开始！找出正文内容前后的代码标签。

(1)不是从文章标题开始

(2)也不是从文章的标示属性开始

好了，既然我们知道是从文章内容的【正文】处的前后找前后标志代码标签，那么怎么找呢？有什么要求吗？

4.前后代码标签查找的要求

并不是直接找正文的前后最近的闭合标签代码！

因为这个并不是唯一的

要求必须是离正文最近的，唯一不重复的前后代码标签。

5.点击开始采集的时候，后边的【发布】按钮哪怕你只是采集到本地没有设置发布，也要勾选上。不然火车头采集器就采集不上。

6.从新采集的话需要右键选择清空采集记录，或者从新新建存储文件夹。不然也采集不上。

以上总结的要点，均是明月SEO本人亲测，实属经验之谈，吐血分享，望周知。

如果你还有疑问，可以在本页面下留言评论(免登陆，直接评论)。有问必答，明月SEO肯定吐血为你解答。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
最大化参数火车头_新手必看的火车头采集器使用入门教程_图文解说版！（看完包会）...

本文资料来源：火车头采集器官网，但是讲解说明远优于官网！总结到位，重点解说明确—明月SEO上一篇我们讲到了：火车头采集器使用图文教程以及重点问题整理！本文将以一个简单的实测案例来说明，从而对重点问题进行细致入微的由浅入深的讲解。下面我们通过一个简单的文章规则制作，来实战说明通过采集faq为例来说明采集器采集的原理和过程。本例以http://faq.locoy.com/qc-12.html演...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。