2011-05-31

最新推荐文章于 2021-12-29 13:55:37 发布

秦伟H

最新推荐文章于 2021-12-29 13:55:37 发布

阅读量790

点赞数

分类专栏：学习note 文章标签：网络 web 搜索引擎 function html ftp服务器

本文链接：https://blog.csdn.net/huqinweI987/article/details/6456378

版权

学习note 专栏收录该内容

65 篇文章 0 订阅

订阅专栏

蜘蛛程序

感觉和我自己写那抓商品的有点像了，不过要在前边先找网页，后边找关键字吧。从页面找链接，一个一个得抓，循环下去，直到把这个网站的所有网页都抓到。

然后，把整个互联网都抓取下来。

不用自动找ip自动找域名的方法吗？那怎么找我网站的链接，比如我有个小网站，别的网站没链向我（那么这时候推广就有用了吧，你在别的网站发自己的链接。）

所以，他们抓取的不是全部页面，而是一部分重要的。

然后就有了优先算法，广度优先，深度优先。

对于不太重要的网站，可能只搜索一层或者两层。

对于网站设计者来说，扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。

网页权限

　　网络蜘蛛在访问网站网页的时候，经常会遇到加密数据和网页权限的问题，有些网页是需要会员权限才能访问。当然，网站的所有者可以通过协议让网络蜘蛛不去抓取，但对于一些出售报告的网站，他们希望搜索引擎能搜索到他们的报告，但又不能完全免费的让搜索者查看，这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取，从而提供搜索。而当搜索者点击查看该网页的时候，同样需要搜索者提供相应的权限验证。

这里列出世界各大搜索引擎蜘蛛名字,方便大家查看网站日志时查找:　　google蜘蛛： googlebot　　百度蜘蛛：baiduspider　　yahoo蜘蛛：slurp　　alexa蜘蛛：ia_archiver　　bing蜘蛛：bingbot　　msn蜘蛛：msnbot　　altavista蜘蛛：scooter　　lycos蜘蛛： lycos_spider_(t-rex)　　alltheweb蜘蛛： fast-webcrawler/　　inktomi蜘蛛： slurp　　有道蜘蛛：YodaoBot和OutfoxBot

三、网络蜘蛛对内容提取

对于doc、pdf等文档，这种由专业厂商提供的软件生成的文档，厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口，就可以轻松的提取文档中的文本信息和文件其它相关的信息。

HTML等文档不一样，HTML有一套自己的语法，通过不同的命令标识符来表示不同的字体、颜色、位置等版式，如：、、等，提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事，因为这些标识符都有一定的规则，只要按照不同的标识符取得相应的信息即可。

对于HTML网页来说，除了标题和正文以外，会有许多广告链接以及公共的频道链接，这些链接和文本正文一点关系也没有，在提取网页内容的时候，也需要过滤这些无用的链接。例如某个网站有“产品介绍”频道，因为导航条在网站内每个网页都有，若不过滤导航条链接，在搜索“产品介绍”的时候，则网站内每个网页都会搜索到，无疑会带来大量垃圾信息。过

四、网络蜘蛛的程序构架（终于到了重点了，看他们都是用什么写的）

用ASP构造网络蜘蛛

那么如何用ASP构建网络蜘蛛呢？答案是：Internet transfer control (ITC)。这个由微软提供的控件，将使你能够通过ASP程序访问Internet资源。你可以用ITC搜寻Web页面，访问FTP服务器，甚至可以发送邮件标题。在本文里，我们将着重讨论搜寻Web页面的功能。
有几个缺陷必须先说明一下。第一，ASP无权访问Windows的注册表，这就使某些ITC正常存储的常量和数值不可用。通常你可以通过设置ITC为“不使用默认值”来解决这个问题，这就需要你在运行过程中指明每一次的值。

　　今天的许多搜索引擎都可以进行额外的逻辑检查，例如计算一个页面中某一短语重复的次数，相关字词的近似程度等，有些甚至可以用来判断所搜寻的语段与上下文的关系。

用VB构造网络蜘蛛

这里使用VB实现核心部分的代码，当然您也可以很简单地转换成其他语言代码。在这里了为了简单起见，我们这里不对数据库操作，我们建立一个二维数组存放我们的网址！

Dim Web(4,10000)‘//建立数组

Dim Pointer‘//建立指针，记录当前种子

Dim Id ‘//建立序号，记录当前抓区网站的序号

Dim Layer‘//建立层次，记录当前正在运行种子的层次

Dim Running‘//建立是否运行的标志，

Private Function NewworkSeed_Set() As Boolean ‘//用来设置网络种子，为演示方便我们把种子放在数组，

'//当然您也可以根据需要把他们直接放到数据库中

Web(0,0) = 1 ‘//序号

Web(1,0) = “ http://www.netfox.cn/” ‘//网站

Web(2,0) = 1 ‘//层次

Web(3,0) = 0 ‘//父序号，0表示为网络原始种子

Web(4,0) = “奈福网络”

‘//当然这里可以设置多个网络原始种子

Web(0,1) = 1

Web(1,1) = “ http://www.aspfaq.cn/”

Web(2,1) = 1

Web(3,1) = 0

Web(4,1) = “asp技术站”

‘//设置网络种子后，记录种子序号开始后的序号，这里设置了2个种子，所以Id=2开始

Id = 2

End Function

Private Sub Spider_Work()‘//蜘蛛工作程序，抓取网站并记录到数组
‘//根据需要可以把他们放到数据库中

Dim A

For Each A In WebBrowser.Document.All

If UCase(A.tagName) = "A" Then

If IsValidWeb(A.href) Then

Id = Id + 1

Web(0, Id) = Id‘//记录当前网站的序号

Web(1, Id) = A.href ‘//记录当前网站

Web(2, Id) = Layer ‘//记录当前网站的层次

If Web(2,Pointer)<> Layer Then Layer = Layer + 1‘//当指针层次与当前层次不同的话

‘//则说明层次已经发生了增加

Web(3, Id) = Pointer ‘//记录当前网站的父序号

Web(4,Id) = A.innerText‘//记录当前网站的名称

End If

End If

Next

Pointer = Pointer + 1

WebBrowser.Navigate Web(1, Pointer-1) ‘//抓取当前种子完毕后，自动跳转到下一个种子

If Running = False Then‘//运行为否，退出运行

Exit Sub

End If

End Sub

Private Function Spider_Init() As Boolean‘//蜘蛛程序初始化函数

Pointer = 1 ‘//指针设置为1，表示从第一个序号开始运行

Id = 2‘//序号设置为2，以后可以读取记录

Layer = 0‘//层次设置为0，表示蜘蛛第一次运行

‘//以上指针，序号，层次都可以记录并且方便以后读取

If IsValidWeb(Web(1, Pointer-1)) Then‘//判断种子是否正确，如果正确初始化成功，否则失败

Running = True

Spider_Init = True

WebBrowser.Navigate Web(1, Pointer-1)

Else

Running = False

Spider_Init = False

Exit Function

End If

End Function

Private Sub WebBrowser_DocumentComplete(ByVal pDisp As Object, URL As Variant) ‘//WebBrowser控件

Call Spider_Work()

End Sub

Private Function IsValidWeb(_href) As Boolean ‘//判断是否是cn域名函数

‘//通过该函数可以实现抓取指定网站或数据

If InStr(_href, " http://www.") > 0 And InStr(_href, ".cn/") > 0 And Len(_href) < 60 Then

IsValidWeb = True

Else

IsValidWeb = False

End If

End Function

Private Sub InitCommand_Click()‘//Init初始化命令控件

If Spider_Init() Then

Msgbox “蜘蛛初始化成功并开始运行了”

Else

Msgbox “蜘蛛初始化失败”

End If

End Private

Private Sub StopCommand_Click()‘//Stop停止命令控件

Running = False ‘//停止运行

End Private

Private Sub RunCommand_Click() ‘//Run运行命令控件

Running = True‘//继续运行

Call Spider_Work()‘//蜘蛛运行主程序

End Private

特定网络蜘蛛

　　相对的，一个特定网络蜘蛛要复杂一些。如我们早先提到的，一个特定网络蜘蛛会搜寻一个页面的特定部分，因而要求预先知道该部分相关的情况。让我们先看看下面的HTML：

　　 <HTML>

<HEAD>

<TITLE>My News Page</TITLE>

<META Name="keywords" Content="News, headlines">

<META Name="descr iption" Content="The current news headlines.">

</HEAD>

<BODY BGCOLOR="#FFFFFF" TEXT="#000000" LINK="#FF3300 "VLINK="#CC0000" ALINK="#0000FF">

<h3>Headlines&l t;/h3>



<a href="/news/8094.asp _fcksavedurl=""/news/8094.asp" ">Stocks prices fall</a><a href="/news/8095.asp">New movies today</a><ahref="/news/8096.asp">Bush and&nb sp;Gore to debate tonight</a><a href="/news/8097.asp"> Fall TV lineup</a>



</BODY>

</HTML>


　　在这个页面内，我们只关心位于“put headlines here”和 “end headlines”这两个标记之间的东西。你可以构建一个只返回该区域查找结果的功能设置：

Function GetText(strText, strStartTag, strEndTag)
dim intStart
intStart = instr(1, strText, strStartTag, vbtextcompare)
if intStart then
intStart = intStart + len(strStartTag)
intEnd = InStr(intStart + 1, strText, strEndTag, vbtextcompar e)
GetText = Mid(strText, intStart + 1, intEnd - intStart&n bsp;- 1)
else
GetText = " "
end if
End Function


　　按照上面构建ITC控件的例子，你可以很容易地将strHTML中的“ ”和 “”作为参数传送到GetText中。

　　要注意，用于开始和结束的标记都不一定要是实际的HTML专用标记——它们可以是你想使用的任何文本界定符。在通常情况下，你不容易找到好的HTML标记来界定搜寻区域。你只能使用比较方便称手的标记——例如，你的首尾标记可以分别如下：

strStartTag = "/td><td>"
strEndTag = "</td></tr><tr><td><ums>&quo t;

　　一定要确定搜索的是HTML页中比较独特的标识，这样你才可以准确地获得你需要的东西。你也可以按照你所返回的文本部分中的链接进行搜寻，不过如果你不知道那些页面的格式，你的网络蜘蛛将无功而返。