SS采集机器人教程
SS采集机器人原理
问题:何为采集?
网上现存的很多文章,资源,全部是以超文本链接形式存在于服务器中,更进一步,存在于数据库的表中.
如果可以操作那些表,当然可以得到相关的文章/资源.
可惜我们只可以操作自己库中的表.
但是,我们既然可以看到文章,看到下载链接,
是不是就有一种方法将这些资源自动获取呢?
答案是YES
获取这些资源的方法,就称之为采集.
先看一个例子,我们就拿我自己站上面首页的一篇文章看一下
例子地址:http://www.4yoo.net/html/37/n-737.html
打开后点击浏览器上的"查看"--"查看源代码",弹出一个文本框.
在文本框里,你会发现很多东西.
首先,
代码:
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gbk" />
<title>四步教会您制作采集器 - 风优采集论坛 做专业采集教程网站- Powered By SupeSite</title>
<meta name="keywords" content="四步教会您制作采集器,资讯 采集,教程,SupeSie/X-Space,采集教程,PHPCMS,ECMS,Discuz,风优原创教程,动易,火车头采集,小蜜蜂,采集器,ASP采集,PHP采集,建站经验,网站推广" />
<meta name="description" content="很多朋友在论坛上发贴询问采集器的制作方法和一些细节问题。为了使得更多的站长更加方便地使用SupeSite的采集功能,特作此教程。首先简单说一下制作采集器的基本原理和思路:1、确定您要采集哪个页面的新 采集,教程,SupeSie/X-Space,采集教程,PHPCMS,ECMS,Discuz,风优原创教程,动易,火车头采集,小蜜蜂,采集器,ASP采集,PHP采集,建站经验,网站推广" />
<link rel="stylesheet" type="text/css" href="/templates/softsea/css/style.css" />
采 集|教程|采集教程|SupeSie/X-Space||PHPCMS|ECMS|Discuz|风优原创教程|动易|火车头采集|小蜜蜂|采集|, ASP采集|PHP采集|建站经验|网站推广<script type="text/javascript">
var siteUrl = "";
</script>
<script src="/include/js/ajax.js" type="text/javascript" language="javascript"></script>
<script src="/include/js/common.js" type="text/javascript" language="javascript"></script>
</head>
这些是<head></head>标签中的部分,这一部分是网页的页头
里面包含了一些该页或者该网站的信息.
<title></title>标签中的是标题,多看几个类似页面的源代码,你会发现title标签中有些部分是变化的,有些是不变的.
像这个页面,<title>四步教会您制作采集器 - 风优采集论坛 做专业采集教程网站- Powered By SupeSite</title>中
四步教会您制作采集器是我们看到的文章标题.
再来个页面看看http://www.4yoo.net/html/38/n-738.html,查看源代码,
你会发现title变成了<title>[教程]"当前位置:首页>>资讯"去掉这里的"资讯"! - 风优采集论坛 做专业采集教程网站- Powered By SupeSite</title>,而[教程]"当前位置:首页>>资讯"去掉这里的"资讯"!,就是我们看到的标题
其中剩下的部分- 风优采集论坛 做专业采集教程网站- Powered By SupeSite是不变的.
于是我们想,是不是该网站所有的文章页面,title标签中- 风优采集论坛 做专业采集教程网站- Powered By SupeSite的部分都是不变的呢?
答案是YES,多查看几个页面你就会发现这个规律.
这个时候,就可以更进一步的推想,我们已经找到了标题在库中的规则,只要找title标签中- 风优采集论坛 做专业采集教程网站- Powered By SupeSite前面的部分就可以了.
所以,运用此方式就可以批量的采集出文章的标题.
看到这里,我们不禁会想,文章的标题有标题的规则,那是不是文章的作者,内容,都有它们各自的规则呢
答案是YES,
制作采集规则的过程,其实也就是寻找文章各种标记的过程.
只要找到了正确的规则,那么我们就可以批量的采集出各种东东了.
这就是采集的原理部分