网络蜘蛛的秘密

原创 2005年02月26日 17:09:00
网络蜘蛛的秘密
发表:2004-7-16 10:32:53 出处:你的博客网(yourblog.org)
经常去雅虎、搜狐等网站搜索信息的读者一定有这样的疑问:如此庞大的网页信息,到底是如何被这些网站所收集到的呢?难道都是人工登记并整理的吗?当然不是。这些搜索引擎能够快速地找到如此之多的信息,和网络蜘蛛的应用是分不开的。

  网络蜘蛛可以算得上是为Internet而开发的最有用处的工具之一。时至今日,要想从以千万计的各不相同的站点中获取信息,舍网络蜘蛛之外,焉有他哉?
    
  一个典型的网络蜘蛛(例如雅虎)工作的方式,是查看一个页面,并从中找到相关信息, 然后它再从该页面的所有链接中出发,继续寻找相关的信息。以此类推,直至穷尽。很快地,就可以在数据库中获得成千上万的页面和信息。这样的工作方式就如同一张向外发散的蜘蛛网,这正是“网络蜘蛛”这个名称的由来。
    
  接下来让我们看看如何建立一个网络蜘蛛。在此之前,我们先要了解几个概念。
  
一、基本原理
    
  我们可以用网络蜘蛛搜寻很多东西。事实上,现在有一些特别用途的商用网络蜘蛛,这些软件为它们的开发者赚取了大把的钞票,比如Altavista科技的一份许可证,就价值30万美元。以下是一个网络蜘蛛的基础原理:
    
  * 从各个消息来源收集信息
    
  从技术角度讲,一个网络蜘蛛应该可以不受限制地从任意来源获取信息。来源多多益善。
    
  * 准确度
    
  不管是谁,遇见这样的事情肯定都会崩溃——搜索引擎向你返回了一百万个结果,可是,只有最后两个是你需要的(这还算好的,如果是中间的两个呢?)。所以好的网络蜘蛛对其返回的结果应该有足够的准确度,而且在有些情况下,还要有特定的功能,也就是说,只返回特定类型的信息——比www.enfused.com的专为搜索游戏设计的网络蜘蛛,就只返回与游戏相关的东西。
    
  * 相对更新
    
  这依赖于你所使用的技术(下面我们会专门提到),网络蜘蛛应该找回更新后的信息,或者至少是比较新的信息。如果网络蜘蛛总是找回一些几年前的陈芝麻烂谷子,那你一定会比系统先一步崩溃。
    
  * 相对快速
    
  这就不用多说了,如果没有足够的速度,那你的网络蜘蛛再怎么准确,也是白搭。


二、基本技术
    
  有好几种方法可以构建网络蜘蛛。第一种,称之为常规网络蜘蛛,只是简单地进行页面寻找,搜索并获得你想要的东西。例如,用一个短语作为关键词进行搜索。第二种,特殊网络蜘蛛,只寻找页面的特定部分。这种网络蜘蛛在某些特定场合很有用(比如,你只想获得某一个站点内的新闻标题)。
    
  常规网络蜘蛛是两者中相对简单的一种。首先,你不需要预先知道目标页面的情况。只需要在该页面中,以及在与其链接的页面中,寻找你要的关键词就可以了。你还可以在功能中设定,忽略掉那些在同一站点下的链接,从而保证每一个结果都来源于不同的站点。
    
  与之相对应,一个特定的网络蜘蛛通常要求你预先知道一些目标页面的情况,例如表格规划等。举个例子,如果你搜寻的是一个页面中的新闻标题,你应该先知道限定此标题的HTML标记。如此你才可以直接搜索页面中正确的部分。在这种情况下,是否具备搜索该页面的所有链接的功能显得不是特别重要,因为你的网络蜘蛛很可能在别的页面中无法找到标记,不能进行工作。
    
  运行网络蜘蛛的时间也有所不同:你可以预先运行,也可以实时运行。预先运行意味着当你的网络蜘蛛运行时,所有搜集到的信息都存贮在一个数据库中,以备以后使用。很明显,如此你将不会获得最新的数据,但是如果你经常运行网络蜘蛛,这个问题也不会有什么大碍。
    
  实时运行意味着你每次运行网络蜘蛛所获得的信息都不会被保存下来,你只能现找现用。例如,如果你在站点设置了搜索功能,在实时状态下使用网络蜘蛛,则无论何时,只要有用户输入一个关键词并点下“发送”按钮,你的网络蜘蛛就将运行,而不是仅仅访问数据库。尽管这可以保证你的数据总是最新的,但是却不是大多数站点的首选,因为网络蜘蛛本身运行和返回数据都需要时间——而时间就是金钱呀!当然,所查找的资料具有高度时间敏感性的时候例外。


三、构建网络蜘蛛
    
  那么如何用ASP构建网络蜘蛛呢?答案是:Internet transfer control (ITC)。这个由微软提供的控件,将使你能够通过ASP程序访问Internet资源。你可以用ITC搜寻Web页面,访问FTP服务器,甚至可以发送邮件标题。在本文里,我们将着重讨论搜寻Web页面的功能。
    
  有几个缺陷必须先说明一下。第一,ASP无权访问Windows的注册表,这就使某些ITC正常存储的常量和数值不可用。通常你可以通过设置ITC为“不使用默认值”来解决这个问题,这就需要你在运行过程中指明每一次的值。
    
  另一个更严重的问题是关于许可证书的。由于ASP不具备调用License Manager(一项Windows中的功能,可以保证组件和控件的合法使用)的功能,那么当License Manager检查当前组件的密钥密码,并将其与Windows注册表进行比较后,如果发现它们不同,该组件将不会工作。因此,当你想把ITC配置到另一台没有所需密钥的计算机上时,将导致ITC崩溃。解决的办法之一是将ITC捆绑到另一个VB组件中,由VB组件复制ITC的路径和工具,从而进行配置。这项工作很麻烦,但不幸的是,它是必不可少的。
    
  下面是一些例子:
    
  你可以用下面的编码建立ITC:

    set Inet1 = CreateObject("InetCtls.Inet")
    Inet1.protocol = 4         ’HTTP
    Inet1.accesstype = 1       ’Direct connection to internet
    Inet1.requesttimeout = 60  ’in seconds
    Inet1.URL = strURL
    trHTML = Inet1.OpenURL    ’grab HTML page
    
  现在strHTML保存着strURL指向的整个页面的HTML内容。要建立一个常规网络蜘蛛,你现在只需要调用 instr() 功能来看看你寻找的串是否在当前位置即可。你也可以按照href标记寻找,解析当前的URL,然后把它设置到Internet 控件的属性中去,接着再继续打开另一个页面。用来查看所有链接的最好方法是使用递归。
    
  要注意的是,尽管这种方法很易于实行,却不是非常准确和强大。今天的许多搜索引擎都可以进行额外的逻辑检查,例如计算一个页面中某一短语重复的次数,相关字词的近似程度等,有些甚至可以用来判断所搜寻的语段与上下文的关系。这些功能将留待我们的读者们自己去摸索。
    
  
四、特定网络蜘蛛
    
  相对的,一个特定网络蜘蛛要复杂一些。如我们早先提到的,一个特定网络蜘蛛会搜寻一个页面的特定部分,因而要求预先知道该部分相关的情况。让我们先看看下面的HTML:
    
  <HTML><HEAD><TITLE>My News Page</TITLE><META Name="keywords" Content="News, headlines"><META Name="description" Content="The current news headlines."></HEAD><BODY BGCOLOR="#FFFFFF" TEXT="#000000" LINK="#FF3300"VLINK="#CC0000" ALINK="#0000FF"><p><h3>Headlines</h3></p><!--put headlines here--><a href="/news/8094.asp">Stocks prices fall</a><a href="/news/8095.asp">New movies today</a><a href="/news/8096.asp">Bush and Gore to debate tonight</a><a href="/news/8097.asp">Fall TV lineup</a><!--end headlines--></BODY></HTML>

    
  在这个页面内,我们只关心位于“put headlines here”和 “end headlines”这两个标记之间的东西。你可以构建一个只返回该区域查找结果的功能设置:

    Function GetText(strText, strStartTag, strEndTag)
    dim intStart
    intStart = instr(1, strText, strStartTag, vbtextcompare)
    if intStart then
intStart = intStart + len(strStartTag)
intEnd = InStr(intStart + 1, strText, strEndTag, vbtextcompare)
GetText = Mid(strText, intStart + 1, intEnd - intStart - 1)
    else
GetText = " "
    end if
    End Function
    
  按照上面构建ITC控件的例子,你可以很容易地将strHTML中的“<!--put headlines here-->”和 “<!--end headlines-->”作为参数传送到GetText中。
    
  要注意,用于开始和结束的标记都不一定要是实际的HTML专用标记——它们可以是你想使用的任何文本界定符。在通常情况下,你不容易找到好的HTML标记来界定搜寻区域。你只能使用比较方便称手的标记——例如,你的首尾标记可以分别如下:

    strStartTag = "/td><td><font face="arial" size="2"><p><b><u>"
    strEndTag = "<p></td></tr><tr><td><o:ums>"
    
  一定要确定搜索的是HTML页中比较独特的标识,这样你才可以准确地获得你需要的东西。你也可以按照你所返回的文本部分中的链接进行搜寻,不过如果你不知道那些页面的格式,你的网络蜘蛛将无功而返。


五、保存信息
    
  在大多数情况下,你会要求将收集到的信息保存在一个数据库中,以备以后使用。你的需求也许包括很广泛的内容,但是在此之前,你要记住以下几件事:
    
  在你的数据库中查找最新信息
    
  如果你经常使用网络蜘蛛去查找一个站点内的新闻标题,你要先确定比较新的标题已经存在于数据库内。然后将其与网络蜘蛛返回的结果相比较,只添加更新过的部分。这样可以防止你保存一大堆重复数据。
    
  更新信息
    
  也许你根本就不想从外部向数据库中添加新信息。比如,如果你维护的是一个美国各州人口的网上索引,你只需要在数据库内部更新——你将不需要在表格内插入新的信息。
    
  保存所需信息
    如果你在查找标题,要确定你也同时查找了该标题指向的链接,并将其保存下来。如果没有链接,你也应该建立一个。例如,如果我从www.yoursite.com查找标题,并在www.mysite.com演示,而该标题与一篇在站点之外的文章有链接,那么我必须先保存http://www.yoursite.com这一链接,然后再保存其它链接到数据库内,这些链接才可以正常访问。


  六、结论
    
  我们已经简要介绍了如何构建一个比较完整的网络蜘蛛。所有的基本功能都已涉及。现在你需要做的就是再在里面加上你自己的东西。
    
  这一类功能将被应用在一个COM对象或者一个独立的应用软件内。在ASP中设置这项功能非常方便,但是你应该将你的编码移到另外的地方,以提高速度和安全性。而且这样也可以令其更容易被打包和传送。          

相关文章推荐

网络蜘蛛-搜狐博客批量下载(之一)

网上的鸟备份工具居然要收费,还是自己写吧。只针对sohu博客,其余博客类推,主要是分析博客链接组织和内容结构。 今天先针对单个博客来做点试验,以获取一篇URL已知的博客正文为目标: ...
  • maray
  • maray
  • 2012年02月03日 23:54
  • 3219

搜索引擎技术揭密:网络蜘蛛

(1) the original article seems to be here: http://www.enet.com.cn/article/2004/0718/A20040718325400....

网站与网络蜘蛛

网络蜘蛛需要抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。今年4月,淘宝网( http://www.taobao.com )就因为雅虎搜索引擎的网络蜘蛛抓取其数据引起淘宝网服务...

C#2.0网络蜘蛛

C#2.0实现抓取网络资源的网络蜘蛛 如何使用C#2.0实现抓取网络资源的网络蜘蛛。使用这个程序,可以通过一个入口网址来扫描整个互联网的网址,并将这些扫描到的网址所指向的网络资源下载...

搜索引擎研究---网络蜘蛛程序算法相关资料 Part VI (共5部分)

搜索引擎研究---网络蜘蛛程序算法相关资料 1、解析HTML文件 这里有两个为了查找A HREF来解析HTML文件方法——一个麻烦的方法和一个简单的方法。 如果你选择麻烦的方法,...
  • my98800
  • my98800
  • 2016年07月18日 09:15
  • 160

网络蜘蛛--抓取一个网页的邮箱

技术:正则表达式+网络编程(URL)package cn.hncu.br;import java.io.BufferedReader; import java.io.FileNotFoundExcep...

抢先式多线程网络蜘蛛

Win32 API 支持抢先式多线程网络,这是编写MFC网络蜘蛛非常有用的地方。SPIDER工程(程序)是一个如何用抢先式多线程技术实现在网上用网络蜘蛛/机器人聚集信息的程序。   该工程产生一...

搜索引擎(网络蜘蛛及搜索引擎基本原理)

2006-05-25网络蜘蛛及搜索引擎基本原理TAG:搜索相关搜索引擎的工作原理大致可以分为:  搜集信息:搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛(spider)的自动搜索机器人程...

网络蜘蛛的基本原理--转载

网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取...
  • yyunfei
  • yyunfei
  • 2011年06月09日 10:26
  • 227

网络蜘蛛采用三种策略来决定抓取网页的先后顺序

网络蜘蛛采用三种策略来决定抓取网页的先后顺序: 1:IP地址搜索策略、 2:广度优先策略: 3深度优先策略 所谓 IP 地址搜索策略,首先网络蜘蛛会获得一个起始的 IP ...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:网络蜘蛛的秘密
举报原因:
原因补充:

(最多只允许输入30个字)