dedecms采集功能的详细介绍(十)

dedecms采集功能的详细介绍(十)





今天来给大家讲解下dedecms的采集功能,希望大家认真学习

一.采集第一要素:确定目标网站

二.路径:后台--采集--采集节点管理--添加一个新节点----普通文章和图片集--设置新增采集节点

三.下面讲解下设置详细内容和介绍

1.

节点名称:随便写下那个站的采集就可以了

编码:查看目标站的源码,头部的charse属性就知道了该怎么填写了

区域匹配模式:一般均默认字符串;而正则表达式相当于过滤的意思

内容导入顺序:这个看你想怎么做了,正着导入还是倒序导入,你就选择相应的导入方式

防盗链模式:开启(防止刷新时间:20s)

2.列表网址获取规则

来源属性:有两种方式

(1)批量生成列表网址

匹配网址:填目标站一个栏目的第一页的网址,将其中的1改成*

然后设置*为从1到n,每页递增多少页由你自己决定,呵呵

启用多栏目通配(#):list-(#)-(*).htm

#表示采集多栏目

*表示采集多列表页面的内容

(2)手工指定网址

只指定某页面的部分文章,直接输入文章内容页面的网址就可以了

3.文章网址匹配规则

(1)区域开始的html:目标站的被采集的一个列表页的源文件的采集区域的开头的一个html标签

(2)区域结束的html:目标站的被采集的一个列表页的源文件的采集区域的结束的一个html标签

(3)如果连接中含有图片

采集为缩略图:图片采集到本机

不处理:就是不采集

(4)对区域网址进行再次筛选:这个必须包含 采集网址的共同点

四.网址获取匹配规则测试

保存进入下一步设置

五.网页内容获取规则

1.文章标题

匹配规则:



2.文章来源

匹配规则:

时间:[内容]

3.文章内容

匹配规则:

[内容]




总之,这些例子就举到这里,它就是所需内容的形式,即语言的形式和 CSS 样式

4.过滤规则讲解

常用规则----随便选中一个----选择去掉中间的文字---得到如下代码

{dede:trim replace=""}{/dede:trim}

将要过滤的字放在中间就OK 了

六。采取成功后,前台不出现的原因

(1)先增加一个栏目---:核心---网站栏目管理----增加顶级栏目

(2)采集---采集节点管理---选中节点总目录---导出数据----采集管理

采集管理中有两个选项

第一个选项:默认导出栏目:选中刚才设置的栏目

第二个选项:附带选项中:选中完成后自动生成导入内容html



好了,采集功能就讲到这了,大家要在实践中操作,我在这里只是大致讲解了下dedecms采集功能设置

过程中的一些要点,重要的还是要大家去操作实践!








分享几款分页标签CSS代码(适用所有5.X版本)
dedecms
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值