火车头采集之采集内容获取

文章目录[隐藏]

前言

昨天一篇文章简单教大家怎么设置网址的采集规则,今天这篇文章教大家如何设置内容的采集规则。

采集内容规则设置

1.  明确采集内容
首先我们要先明白需要采集什么内容,其实你采集的内容最终会进入数据库,一般情况下你的一个采集标签会对应一个数据库字段。
我们接着昨天的网站说。我的网站是一个资源收集网站。其实归根到底就是一个文章发布,及文章展示的网站。我们文章的内容就对应采集站文章的内容。
一般情况下,一篇文章最主要的就是文章标题和文章内容。如下所示。

火车头采集之采集内容获取
2. 查看源代码,分析源代码

火车头采集之采集内容获取
通过上图的方式,找到 html 代码: <h3 class="article_title"> 在线看美女图片源码+py 源码下载 </h3> 。
如果想获取其中的标题,我们需要用到编写采集规则最重要的思想: 截取。
如上标签我们可以这么想: 如果可以有方法通过前后截取的方式,前面从“<h3 class="article_title">”开始,到“ </h3> ” 为止,
这样不就可以截取到其中的标题了。很幸运火车头采集器提供这样的操作,我们只需要如下设置:
3. 火车头采集器标签内容获取
具体方法可参照下图说明:

火车头采集之采集内容获取

总结

1. 我目前遇到的采集基本都是通过截取 html 标签实现的,这种方式基本适用于 80%的网站。所以不要怀疑,如果你没获取到肯定是你规则前后截取有问题。
2. 采集就是需要你不断测试,我那几晚上有个标签也是获取不到,结果到处百度看文章,然后测试,最终就是因为标签中漏写一个一些字符导致截取不准确。
3. 本方法是我自己测试过可行的,按照这种思路采集不会错的。我自己维护的一个采集站: mip.chiyuba.com 欢迎查看采集测试。
4. 如需要获取教程中的网址请关注公众号回复: 采集网址
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值