制作SupeSite采集器

alei8583

于 2008-04-20 17:45:00 发布

阅读量1.2k

点赞数

分类专栏： 5、windows 应用文章标签： url 资讯框架 list

5、windows 应用专栏收录该内容

22 篇文章 0 订阅

订阅专栏

首先简单说一下制作采集器的基本原理和思路：

　　1、确定您要采集哪个页面的新闻，将这些页面的地址填入到“索引页面url地址(图4和5)”;

　　2、确定在这些页面您要采集的内容区域，因为不是一个网页所有的内容都要采集回来，而是采集一个网页的一部分内容，所以您必须告诉程序您要采集的区域，也就是“列表区域识别规则”;(图4和5)

　　3、第2步确定区域之后，还要告诉程序您要采集的文章链接，也就是“文章链接url识别规则”。(图4和5)

　　4、现在已经确定了大的采集框架，接下来要告诉程序在一个文章页面，文章的标题，文章的来源和作者分别是什么。然后就是一篇文章内容的范围，也就是说一个文章页面内，真正您需要采集的范围，就是“文章内容识别规则”。最后设置分页的区域和分页的链接地址。(图6)。

　　5、以上4个步骤已经确定了采集的范围，如果您需要过滤标题和内容，请根据您的要求设置“内容页面整理设置”。

　　以上几个步骤确定范围都是通过查看页面源码，进行设置的，截取的方法需要一些经验，练习2--3次就可以领悟到了。

　　接下来介绍采集器的基本原理和步骤：

　　第一：打开后台的采集器，点击“添加新机器人”。(图1)

　　第二：填写基本设置：(图2)

　　这里需要特别指出的有两个地方：单次采集个数和采集页面编码。单次采集个数尽量设置较小的数字，以免超时。采集页面编码是您采集网页的编码，并不是您站点的编码。这里切记!!

　　查看采集页面编码的方法：点击网页头部的“查看”，然后点击“源文件”，然后找到类似“” ，charset后面的就是这里需要填写的“采集页面编码”。(图3)

　　第三：列表页面采集设置：(图4)和(图5)

　　这里设置的是采集页面的url地址，采集内容的区域范围，采集文章标题的url地址。

　　采集页面的url地址有两种设置方法：手动输入(图4)和自动增长(图5)。手动输入需要您自己将所需采集的地址逐行输入。自动增长只需填入采集页面的地址和页面页码。详见图5。用[page]代替分页变量。

　　采集内容的范围用[list]代替，采集文章的标题用[url]代替。

第四：内容页面采集设置：(图6)

　　这里需要设置的采集规则有：文章标题，文章来源(选填)，文章作者(选填)，文章内容，分页设置(选填)。

　　文章标题用[subject]代替，文章来源用[from]代替，文章作者用[author]代替，文章内容用[message]代替，分页区域用[pagearea]代替，分页链接用[page]代替。

　　之后的过滤设置可以根据您的需要和采集页面的具体情况进行填写。

　　设置完毕之后点击提交，然后点击“开始采集”(图7)，图8是采集的过程，采集完毕之后点击“查看结果”(图9)，如果您的采集规则正确，可以得到图10的页面，最后将采集的内容导入资讯。这里说明一点：采集的内容只能够导入资讯这个频道。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
制作SupeSite采集器

首先简单说一下制作采集器的基本原理和思路：　　1、确定您要采集哪个页面的新闻，将这些页面的地址填入到“索引页面url地址(图4和5)”;　　2、确定在这些页面您要采集的内容区域，因为不是一个网页所有的内容都要采集回来，而是采集一个网页的一部分内容，所以您必须告诉程序您要采集的区域，也就是“列表区域识别规则”;(图4和5)　　3、第2步确定区域之后，还要告诉程序您要采集的文章链接，也就是
复制链接

扫一扫

专栏目录

alei8583 CSDN认证博客专家 CSDN认证企业博客

码龄17年

69: 原创

24万+: 周排名

90万+: 总排名

45万+: 访问

: 等级

4403: 积分

73: 粉丝

17: 获赞

33: 评论

54: 收藏

私信

关注

热门文章

分类专栏

最新评论

一个低学历者的辛酸程序路
Tisfy: 十分完美，正如：历览千载书，时时见遗烈。
安装kernel...src.rpm错误：warning: user mockbuild does not exist - using root
AXIAHA: gourpadd 是不是打错了应该是groupadd吧
农村出身的80后身处都市的十大尴尬
前方一片光明: 时光如水流，不去珍惜，它只会荒废，一旦如拾珍宝般去爱它，它一定会给予你最正能量的回应。我愿为每一个“偷时光”的人鼓掌，我愿致敬每一个与时间赛跑的人。【自动评论】
《机.器.猫》的真正的大-结-局
前方一片光明: 对于幸福，笑星范伟有过这样一段精彩的道白：“幸福就是饥饿时，看见别人手里拿着包子，他就比我幸福；寒冷里，看见别人穿着棉袄，他就比我幸福；悲伤中，看见别人在微笑，他就比我幸福！”这几句简单的幽默，是否可以说幸福与金钱没有必然联系。【自动评论】
成功需要走十步的话，三五步之间最难走……
前方一片光明: 头一次评论啊，好紧张啊，该怎么说啊，打多少字才显的有文采啊，这样说好不好啊，会不会成热门啊，我写的这么好会不会太招遥，写的这么深奥别人会不会看不懂啊，怎样才能写出飘逸潇洒的水平呢，半小时写了这么多会不会太快啊，好激动啊【自动评论】

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。