转载请标明是引用于 http://blog.csdn.net/chenyujing5678
欢迎拍砖!
我们能采用中英网的生活综合为例来讲解。中英网的链接是:http://life.uker.net/other/
我们准备把下面的文章摘录下来:
1、新建采集点
采集->采集点管理->添加采集点->普通文章
2、完成采集第一步 网址索引:
2、1 添加节点名称,目标页面编码可以从源代码中查看
如下图,我们的页面编码是gb2321。
2、2 引用网址
它是我们建立采集点后的效果的测试网页,一般选择一个文章页的网址。
我们以点开
这篇文章为例,它的网址是: http://life.uker.net/other/136566.html
2、3 来源属性
它是我们得到文章列表的网址,这里我们可以有三种选项:批量生成列表网址、手工指定列表网址、从RSS中获取。
如下图所示,如果选择批量生成列表网址,那么我们会把下面的[1] 2 3 4 5 6 .....所有的列表都抓下来;
而如果选择手工指定,那么只能抓取一个列表,这里我们选择手工指定第一个列表。
所以我们的网址是:http://life.uker.net/other/index.html(如下图所示)
注意:有些人就说他们的第一个列表的网址怎么是: http://life.uker.net/other/(如下图)
那么我们该用哪个网址呢?怎么得到那个网址呢?
答案是肯定的,得选择http://life.uker.net/other/index.html网址。
如果大家有兴趣可以依次把列表2、列表3、、、、、的网址都找出来对比:
http://life.uker.net/other/index_1.html
http://life.uker.net/other/index_2.html
http://life.uker.net/other/index_3.html
http://life.uker.net/other/index_4.html
、、、、、、
这么看来,当然我们的第一个列表是http://life.uker.net/other/index.html了。
2、4 文章网址匹配规则
我们找开第一个列表(http://life.uker.net/other/index.html)的源代码来查看。
(1)通过在代码中查找第一篇文章标题:
我们定位到下图,所以区域开始的HTML是<ul class="other">
(2)通过在代码中查找最后一篇文章标题:
我们定位到下图,所以区域开始的HTML是</li></ul>
这样我们得到如下结果:
注意:在来源属性中有三个选项:
如果我们的文件列表有多个,如:
那么可以选择“批量生成网址”;如果文章列表只有一页那么只能选“手工指定列表网址”。
3、完成采集第二步 内容配置:
我们只关心两个方面:文章标题与文章内容。
3、1 文章标题
我们点开一篇文章,查看源码,在里面查找标题的地方,这时我们以第一篇文章为便来说明。
从上图所示,标题是 "英国留学生如何去警察局注册",在源码中的位置有三个:
上图的第一个是在title里面,它应该当之无愧是标题,可是大家注意红色圈部分,它含有中英网的字眼,这要出现在我们的网站上肯定不合适;
第二个地方出现在<h2>里,是我们选择的地方。(在做过SEO的网站中,文章标题一般放在<h1>或<h2>里面),
当然有人会问在这个文章里会不会出现第二个<h2>呢? 我也不明白原因,有知道的网友可以告诉我一下。
第三个地方在<h3>里面,没有<h2>来得好。
所以我们的文章标题匹配规则就是 <h2>[内容]</h2>
3、2 过滤规则:
我们选择把超链接去掉
3、3 匹配规则:
这是文章内容的匹配规则,
我们从源代码中查找内容的第一行文字: 英国留学新生开学报道之后,学校通常会安排1-2天的时间让警方到学校办理学生
找到了两个地方:
比较两个地方,我们不选择在meta里的内容,因为它是定义描述及关键字的地方,不是内容,所以我们从第二张图入手,
得到内容的开始标志是:
<div class="bianzhean">
查找内容结尾的标志同理。。。。。。
得到结尾标志是 :
<div class="nextxx" id="nextxx">
这里大家一定要记住,不能写成
<div class="nextxx"
不然抓取文件时会使DedeCMS死掉,我试过了。
这样我们得到的结果如下图:
4、保存采集点后可以去采集了
采集到的数据,我们单击文章,然后对采集结果做内容替换。
导出数据:
5、导出规则
如果我们要把某个采集点保存起来,那么选中要导出的采集点,点“导出配置”
得到的规则选中后复制到.txt文档里粘贴。
6、导入规则
在新的平台上可以导入数据,但是不能在不同版本号中导入 (eg:5.6的规则不能导入到5.7,会提示不合法)