火车头采集之采集内容获取

最新推荐文章于 2024-01-24 13:37:13 发布

不随。

最新推荐文章于 2024-01-24 13:37:13 发布

阅读量717

点赞数

文章标签： python java 大数据编程语言人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/h1530687053/article/details/114979802

版权

文章目录[隐藏]

前言
采集内容规则设置
总结

前言

昨天一篇文章简单教大家怎么设置网址的采集规则，今天这篇文章教大家如何设置内容的采集规则。

采集内容规则设置

1. 明确采集内容

首先我们要先明白需要采集什么内容，其实你采集的内容最终会进入数据库，一般情况下你的一个采集标签会对应一个数据库字段。
我们接着昨天的网站说。我的网站是一个资源收集网站。其实归根到底就是一个文章发布，及文章展示的网站。我们文章的内容就对应采集站文章的内容。
一般情况下，一篇文章最主要的就是文章标题和文章内容。如下所示。

火车头采集之采集内容获取

2. 查看源代码，分析源代码

火车头采集之采集内容获取

通过上图的方式，找到 html 代码： <h3 class="article_title"> 在线看美女图片源码+py 源码下载 </h3> 。
如果想获取其中的标题，我们需要用到编写采集规则最重要的思想： 截取。
如上标签我们可以这么想： 如果可以有方法通过前后截取的方式，前面从“<h3 class="article_title">”开始，到“ </h3> ” 为止，
这样不就可以截取到其中的标题了。很幸运火车头采集器提供这样的操作，我们只需要如下设置：

3. 火车头采集器标签内容获取

具体方法可参照下图说明：

火车头采集之采集内容获取

总结

1. 我目前遇到的采集基本都是通过截取 html 标签实现的，这种方式基本适用于 80%的网站。所以不要怀疑，如果你没获取到肯定是你规则前后截取有问题。
2. 采集就是需要你不断测试，我那几晚上有个标签也是获取不到，结果到处百度看文章，然后测试，最终就是因为标签中漏写一个一些字符导致截取不准确。
3. 本方法是我自己测试过可行的，按照这种思路采集不会错的。我自己维护的一个采集站： mip.chiyuba.com 欢迎查看采集测试。
4. 如需要获取教程中的网址请关注公众号回复： 采集网址

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
火车头采集之采集内容获取

文章目录[隐藏] 前言采集内容规则设置总结前言昨天一篇文章简单教大家怎么设置网址的采集规则，今天这篇文章教大家如何设置内容的采集规则。采集内容规则设置1. 明确采集内容首先我们要先明白需要采集什么内容，其实你采集的内容最终会进入数据库，一般情况下你的一个采集标签会对应一个数据库字段。我们接着昨天的网站说。我的网站是一个资源收集网站。其实归根到底就是一个文章发布，及文章展示的网...
复制链接

扫一扫

不随。 CSDN认证博客专家 CSDN认证企业博客

码龄8年

321: 原创

2万+: 周排名

6883: 总排名

56万+: 访问

: 等级

4844: 积分

286: 粉丝

367: 获赞

92: 评论

1186: 收藏

私信

关注

热门文章

分类专栏

docker 9篇
Qt界面相关 53篇
前端 17篇
随笔 13篇
笔记 6篇
QML学习 3篇
备用黑科技 2篇
Qt基础知识 54篇
Python 2篇

最新评论

QChart学习之设置部分图例隐藏
weixin_43609289: 编译都通不过应该是别的问题，看看编译输出是啥对着改吧，这个方法我用着是没问题的。问setUseOpenGL是为了问下有没有点数量大时候的优化方式，和编译不通过倒是没关系。
QChart学习之设置部分图例隐藏
顾白白baibai: 没有用OPENGL优化。我是在编译过程中程序就中断了
tp5 uniapp request函数真机post请求失败总结
Sugarscat: 感谢，感谢，感谢，感谢，感谢，感谢，感谢，感谢，感谢，感谢，感谢，感谢，感谢，感谢，感谢，感谢，感谢，感谢，感谢，感谢，感谢，感谢。
QChart学习之设置部分图例隐藏
weixin_43609289: chart和m_scatterSeries换成你自己的对象就可以了，我用这个是没问题的。顺便问下你得折线的点数量是不是比较大，用了openGL优化的？
QChart学习之设置部分图例隐藏
顾白白baibai: 奇怪，我用这个程序中断了，编译都过不了吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。