php内容采集系统,第一步、采集规则

采集第一步工作是设置目标网站的采集规则

先确定采集哪一个目标网站,我们用 腾讯科技频道为例:http://tech.qq.com/all/newtech.htm

一、列表采集规则

1、设置采集规则和编码

04c68f3ffe9fa6c59fa0a9bf8fd0884a.png

网页编码是目标网站的编码,如果编码选择不当,可能出现乱码

2、设置标题规则

这时候需要查看页面源代码,找到标题相关的字符,如下图:

7d6ec28a6d8e5b5fca9d02531a7636d9.png

我们找到标题在Q-tpListInner的div下面的h3标签里面的a标签里面,那么,我们就可以这样写:

3cfc6fc3ac0d16069c929be80146250f.png

3、设置地址规则

采集完标题之后需要采集这个标题对应的内容地址,这时候需要查看页面源代码,找到URL相关的字符,如下图:

d06342874eb77f7a68ca5579ae0e8ebe.png

和上面的方法类似,采集插件可以自动识别a标签中的地址,这里只需要指明a标签的级别关系即可,写法是:

1e820d0c02e2020a082ffd690bb815bc.png

4、列表地址补全

如果在(3中)只采集了相对地址,例如/news/123.html,这种不完整的地址时,那么就要用到补全,填写前半部分域名,组合成一个完整的内容地址。

如果已经采集是完整的地址就不需要补全设置。

5、测试采集列表

测试上面的规则是否正确采集,如下图示:

7ea1929c074224b20561118ce8fcde5c.png

e56e0ce1f49585da714b239d03002fdf.png

这种就表示采集成功了,本业数据采集完成。

二、内容采集规则

1、添加数据项

就是需要采集的字段,采集哪些内容,一般采集有,标题,内容,图片等等,需要多个字段,就在这里添加选项

6e82e9d8a76104dc0908f6d798bf3079.png

2、标签名设置

表示这个数据项的名字,随便命名

b222afe5d38e4fd63432bc0503745253.png

3、内容选择器设置

采集这个数据项的内容规则,比如目标站内容是:http://tech.qq.com/a/20160619/012575.htm

要采集标题,就需要找到标题的位置:

00137fa04c9c3dd8cdae166846cb546a.png

图中看出,在.hd类中的h1标签中,那么就可以这样写:

6c0aceed7a01936a96a72b32b13c9808.png

4、过滤字符设置

如果采集内容出现不想要的文字,可以设置过滤的文本,一行一个:

b19fbaffa377ad4c15b1001e7e1df378.png

5、补全图片链接设置

当内容中含有图片相对路径时,可以设置补全地址,组合成一个完整的路径

6、内容格式化函数设置(需要开发经验)

采集器默认采集内容格式是文本类型,如果你要采集入库到多文件字段、复选字段、时间字段等非文本字段时,这里就需要使用格式化入库函数来格式入库

本文地址:https://www.xunruicms.com/doc/558.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值