在DedeCMS中建立采集点

转载请标明是引用于 http://blog.csdn.net/chenyujing5678 

欢迎拍砖!

 

我们能采用中英网的生活综合为例来讲解。中英网的链接是:http://life.uker.net/other/

我们准备把下面的文章摘录下来:

 

1、新建采集点

采集->采集点管理->添加采集点->普通文章

2、完成采集第一步 网址索引:

2、1 添加节点名称,目标页面编码可以从源代码中查看

如下图,我们的页面编码是gb2321。

2、2 引用网址

它是我们建立采集点后的效果的测试网页,一般选择一个文章页的网址。

我们以点开

这篇文章为例,它的网址是: http://life.uker.net/other/136566.html

2、3  来源属性

它是我们得到文章列表的网址,这里我们可以有三种选项:批量生成列表网址、手工指定列表网址、从RSS中获取

如下图所示,如果选择批量生成列表网址,那么我们会把下面的[1] 2 3 4 5 6 .....所有的列表都抓下来;

而如果选择手工指定,那么只能抓取一个列表,这里我们选择手工指定第一个列表。

 

 

所以我们的网址是:http://life.uker.net/other/index.html(如下图所示)

 

注意:有些人就说他们的第一个列表的网址怎么是: http://life.uker.net/other/(如下图)

那么我们该用哪个网址呢?怎么得到那个网址呢?

答案是肯定的,得选择http://life.uker.net/other/index.html网址。

如果大家有兴趣可以依次把列表2、列表3、、、、、的网址都找出来对比:

http://life.uker.net/other/index_1.html

http://life.uker.net/other/index_2.html

http://life.uker.net/other/index_3.html

http://life.uker.net/other/index_4.html

、、、、、、

这么看来,当然我们的第一个列表是http://life.uker.net/other/index.html了。

2、4 文章网址匹配规则

我们找开第一个列表(http://life.uker.net/other/index.html)的源代码来查看。

(1)通过在代码中查找第一篇文章标题:

我们定位到下图,所以区域开始的HTML是<ul class="other">

(2)通过在代码中查找最后一篇文章标题:

我们定位到下图,所以区域开始的HTML是</li></ul>

 

 

 

这样我们得到如下结果:

 

 

 注意:在来源属性中有三个选项:

如果我们的文件列表有多个,如:

那么可以选择“批量生成网址”;如果文章列表只有一页那么只能选“手工指定列表网址”。

3、完成采集第二步 内容配置:

我们只关心两个方面:文章标题与文章内容。

3、1 文章标题

我们点开一篇文章,查看源码,在里面查找标题的地方,这时我们以第一篇文章为便来说明。

从上图所示,标题是 "英国留学生如何去警察局注册",在源码中的位置有三个:

 

 

上图的第一个是在title里面,它应该当之无愧是标题,可是大家注意红色圈部分,它含有中英网的字眼,这要出现在我们的网站上肯定不合适;

第二个地方出现在<h2>里,是我们选择的地方。(在做过SEO的网站中,文章标题一般放在<h1>或<h2>里面),

当然有人会问在这个文章里会不会出现第二个<h2>呢?  我也不明白原因,有知道的网友可以告诉我一下。

第三个地方在<h3>里面,没有<h2>来得好。

所以我们的文章标题匹配规则就是  <h2>[内容]</h2>

 

3、2  过滤规则:

我们选择把超链接去掉

3、3 匹配规则:

这是文章内容的匹配规则,

我们从源代码中查找内容的第一行文字: 英国留学新生开学报道之后,学校通常会安排1-2天的时间让警方到学校办理学生

找到了两个地方:

 

比较两个地方,我们不选择在meta里的内容,因为它是定义描述及关键字的地方,不是内容,所以我们从第二张图入手,

得到内容的开始标志是:
<div class="bianzhean">

查找内容结尾的标志同理。。。。。。

得到结尾标志是 :

<div class="nextxx" id="nextxx">

这里大家一定要记住,不能写成

 <div class="nextxx"

不然抓取文件时会使DedeCMS死掉,我试过了。

 

 

这样我们得到的结果如下图:


4、保存采集点后可以去采集了

 

 采集到的数据,我们单击文章,然后对采集结果做内容替换

导出数据:

 

 5、导出规则

如果我们要把某个采集点保存起来,那么选中要导出的采集点,点“导出配置”

得到的规则选中后复制到.txt文档里粘贴。

6、导入规则

在新的平台上可以导入数据,但是不能在不同版本号中导入 (eg:5.6的规则不能导入到5.7,会提示不合法)

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值