php内容采集系统,第一步、采集规则

最新推荐文章于 2024-06-27 14:50:52 发布

15589036688

最新推荐文章于 2024-06-27 14:50:52 发布

阅读量655

点赞数

文章标签： php内容采集系统

采集第一步工作是设置目标网站的采集规则

先确定采集哪一个目标网站，我们用腾讯科技频道为例：http://tech.qq.com/all/newtech.htm

一、列表采集规则

1、设置采集规则和编码

网页编码是目标网站的编码，如果编码选择不当，可能出现乱码

2、设置标题规则

这时候需要查看页面源代码，找到标题相关的字符，如下图：

我们找到标题在Q-tpListInner的div下面的h3标签里面的a标签里面，那么，我们就可以这样写：

3、设置地址规则

采集完标题之后需要采集这个标题对应的内容地址，这时候需要查看页面源代码，找到URL相关的字符，如下图：

和上面的方法类似，采集插件可以自动识别a标签中的地址，这里只需要指明a标签的级别关系即可，写法是：

4、列表地址补全

如果在(3中)只采集了相对地址，例如/news/123.html，这种不完整的地址时，那么就要用到补全，填写前半部分域名，组合成一个完整的内容地址。

如果已经采集是完整的地址就不需要补全设置。

5、测试采集列表

测试上面的规则是否正确采集，如下图示：

这种就表示采集成功了，本业数据采集完成。

二、内容采集规则

1、添加数据项

就是需要采集的字段，采集哪些内容，一般采集有，标题，内容，图片等等，需要多个字段，就在这里添加选项

2、标签名设置

表示这个数据项的名字，随便命名

3、内容选择器设置

采集这个数据项的内容规则，比如目标站内容是：http://tech.qq.com/a/20160619/012575.htm

要采集标题，就需要找到标题的位置：

图中看出，在.hd类中的h1标签中，那么就可以这样写：

4、过滤字符设置

如果采集内容出现不想要的文字，可以设置过滤的文本，一行一个：

5、补全图片链接设置

当内容中含有图片相对路径时，可以设置补全地址，组合成一个完整的路径

6、内容格式化函数设置(需要开发经验)

采集器默认采集内容格式是文本类型，如果你要采集入库到多文件字段、复选字段、时间字段等非文本字段时，这里就需要使用格式化入库函数来格式入库

本文地址：https://www.xunruicms.com/doc/558.html

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
php内容采集系统,第一步、采集规则

采集第一步工作是设置目标网站的采集规则先确定采集哪一个目标网站，我们用腾讯科技频道为例：http://tech.qq.com/all/newtech.htm一、列表采集规则1、设置采集规则和编码网页编码是目标网站的编码，如果编码选择不当，可能出现乱码2、设置标题规则这时候需要查看页面源代码，找到标题相关的字符，如下图：我们找到标题在Q-tpListInner的div下面的h3标签里面的a标签里面...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。