2011-05-31

蜘蛛程序

感觉和我自己写那抓商品的有点像了,不过要在前边先找网页,后边找关键字吧。从页面找链接,一个一个得抓,循环下去,直到把这个网站的所有网页都抓到。

然后,把整个互联网都抓取下来。

不用自动找ip自动找域名的方法吗?那怎么找我网站的链接,比如我有个小网站,别的网站没链向我(那么这时候推广就有用了吧,你在别的网站发自己的链接。)

所以,他们抓取的不是全部页面,而是一部分重要的。

然后就有了优先算法,广度优先,深度优先。

对于不太重要的网站,可能只搜索一层或者两层。

对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。

网页权限

 

  网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。

 

这里列出世界各大搜索引擎蜘蛛名字,方便大家查看网站日志时查找:  google蜘蛛: googlebot  百度蜘蛛:baiduspider  yahoo蜘蛛:slurp  alexa蜘蛛:ia_archiver  bing蜘蛛:bingbot  msn蜘蛛:msnbot  altavista蜘蛛:scooter  lycos蜘蛛: lycos_spider_(t-rex)  alltheweb蜘蛛: fast-webcrawler/  inktomi蜘蛛: slurp  有道蜘蛛:YodaoBot和OutfoxBot

 

三、网络蜘蛛对内容提取

对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档, 厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口,就可以轻松的提取文档中的文本信息和文件其它相关的信息。
HTML等文档不一样,HTML有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式,如:、、等,提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。
对于HTML网页来说,除了标题和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候,也需要过滤这些无用的链接。例如某个网站有“产品介绍”频道,因为导航条在网站内每个网页都有,若不过滤导航条链接,在搜索“产品介绍”的时候,则网站内每个网页都会搜索到,无疑会带来大量垃圾信息。过
四、网络蜘蛛的程序构架(终于到了重点了,看他们都是用什么写的)
用ASP构造网络蜘蛛
      那么如何用ASP构建网络蜘蛛呢?答案是:Internet transfer control (ITC)。这个由 微软提供的控件,将使你能够通过ASP程序访问Internet资源。你可以用ITC搜寻Web页面,访问FTP服务器,甚 至可以发送邮件标题。在本文里,我们将着重讨论搜寻Web页面的功能。
      有几个缺陷必须先说明一下。第一,ASP无权访问Windows的注册表,这就使某些ITC正常存储的常量和数 值不可用。通常你可以通过设置ITC为“不使用默认值”来解决这个问题,这就需要你在运行过程中指明每一 次的值。
   今天的许多搜索引擎都可以进行额外的 逻辑检查, 例如计算一个页面中某一短语重复的次数,相关字词的近似程度等,有些甚至可以用来判断所搜寻 的语段与上下文的关系。
用VB构造网络蜘蛛
这里使用VB实现核心部分的代码,当然您也可以很简单地转换成其他语言代码。在这里了为了简单起见,我们这里不对数据库操作,我们建立一个二维数组存放我们的网址!
Dim Web(4,10000)‘//建立数组
Dim Pointer‘//建立指针,记录当前种子
Dim Id ‘//建立序号,记录当前抓区网站的序号
Dim Layer‘//建立层次,记录当前正在运行种子的层次
Dim Running‘//建立是否运行的标志,
Private Function NewworkSeed_Set() As Boolean ‘//用来设置网络种子,为演示方便我们把种子放在数组,
'//当然您也可以根据需要把他们直接放到数据库中
Web(0,0) = 1 ‘//序号
Web(1,0) = “ http://www.netfox.cn/” ‘//网站
Web(2,0) = 1 ‘//层次
Web(3,0) = 0 ‘//父序号,0表示为网络原始种子
Web(4,0) = “奈福网络”
‘//当然这里可以设置多个网络原始种子
Web(0,1) = 1
Web(1,1) = “ http://www.aspfaq.cn/
Web(2,1) = 1
Web(3,1) = 0
Web(4,1) = “asp技术站”
‘//设置网络种子后,记录种子序号开始后的序号,这里设置了2个种子,所以Id=2开始
Id = 2
End Function
Private Sub Spider_Work()‘//蜘蛛工作程序,抓取网站并记录到数组 
‘//根据需要可以把他们放到数据库中
Dim A
For Each A In WebBrowser.Document.All
If UCase(A.tagName) = "A" Then
If IsValidWeb(A.href) Then
Id = Id + 1
Web(0, Id) = Id‘//记录当前网站的序号
Web(1, Id) = A.href ‘//记录当前网站
Web(2, Id) = Layer ‘//记录当前网站的层次
If Web(2,Pointer)<> Layer Then Layer = Layer + 1‘//当指针层次与当前层次不同的话
‘//则说明层次已经发生了增加
Web(3, Id) = Pointer ‘//记录当前网站的父序号
Web(4,Id) = A.innerText‘//记录当前网站的名称
End If
End If
Next
Pointer = Pointer + 1
WebBrowser.Navigate Web(1, Pointer-1) ‘//抓取当前种子完毕后,自动跳转到下一个种子
If Running = False Then‘//运行为否,退出运行
Exit Sub
End If
End Sub
Private Function Spider_Init() As Boolean‘//蜘蛛程序初始化函数
Pointer = 1 ‘//指针设置为1,表示从第一个序号开始运行
Id = 2‘//序号设置为2,以后可以读取记录
Layer = 0‘//层次设置为0,表示蜘蛛第一次运行
‘//以上指针,序号,层次都可以记录并且方便以后读取
If IsValidWeb(Web(1, Pointer-1)) Then‘//判断种子是否正确,如果正确初始化成功,否则失败
Running = True
Spider_Init = True
WebBrowser.Navigate Web(1, Pointer-1)
Else
Running = False
Spider_Init = False
Exit Function
End If
End Function
Private Sub WebBrowser_DocumentComplete(ByVal pDisp As Object, URL As Variant) ‘//WebBrowser控件
Call Spider_Work()
End Sub
Private Function IsValidWeb(_href) As Boolean ‘//判断是否是cn域名函数
‘//通过该函数可以实现抓取指定网站或数据
If InStr(_href, " http://www.") > 0 And InStr(_href, ".cn/") > 0 And Len(_href) < 60 Then
IsValidWeb = True
Else
IsValidWeb = False
End If
End Function
Private Sub InitCommand_Click()‘//Init初始化 命令控件
If Spider_Init() Then
Msgbox “蜘蛛初始化成功并开始运行了”
Else
Msgbox “蜘蛛初始化失败”
End If
End Private
Private Sub StopCommand_Click()‘//Stop停止 命令控件
Running = False ‘//停止运行
End Private
Private Sub RunCommand_Click() ‘//Run运行 命令控件
Running = True‘//继续运行
Call Spider_Work()‘//蜘蛛运行主程序
End Private
特定网络蜘蛛
  相对的,一个特定网络蜘蛛要复杂一些。如我们早先提到的,一个特定网络蜘蛛会搜寻一个页面的特定部 分,因而要求预先知道该部分相关的情况。让我们先看看下面的HTML:

   <HTML>
<HEAD>
<TITLE>My News Page</TITLE>
<META Name="keywords" Content="News, headlines">
<META Name="descr iption" Content="The current news headlines.">
</HEAD>
<BODY BGCOLOR="#FFFFFF" TEXT="#000000" LINK="#FF3300 "VLINK="#CC0000" ALINK="#0000FF">
<p><h3>Headlines&l t;/h3></p>
<!--put headlines here-->
<a href="/news/8094.asp _fcksavedurl=""/news/8094.asp" ">Stocks prices fall</a><a href="/news/8095.asp">New movies today</a><ahref="/news/8096.asp">Bush and&nb sp;Gore to debate tonight</a><a href="/news/8097.asp"> Fall TV lineup</a>
<!--end headlines-->
</BODY>
</HTML>

   在这个页面内,我们只关心位于“put headlines here”和 “end headlines”这 两个标记之间的东西。你可以构建一个只返回该区域查找结果的功能设置:
Function GetText(strText, strStartTag, strEndTag)
dim intStart
intStart = instr(1, strText, strStartTag, vbtextcompare)
if intStart then
intStart = intStart + len(strStartTag)
intEnd = InStr(intStart + 1, strText, strEndTag, vbtextcompar e)
GetText = Mid(strText, intStart + 1, intEnd - intStart&n bsp;- 1)
else
GetText = " "
end if
End Function

   按照上面构建ITC控件的例子,你可以很容易地将strHTML中的“ <!--put headlines here-->”和 “<!--end headlines-->”作为参数传 送到GetText中。

   要注意,用于开始和结束的标记都不一定要是实际的HTML专用标记——它们可以是你想使用的任何文本界 定符。在通常情况下,你不容易找到好的HTML标记来界定搜寻区域。你只能使用比较方便称手的标记——例如 ,你的首尾标记可以分别如下:
strStartTag = "/td><td><font face="arial" size=&q uot;2"><p><b><u>"
strEndTag = "<p></td></tr><tr><td><ums>&quo t;

   一定要确定搜索的是HTML页中比较独特的标识,这样你才可以准确地获得你需要的东西。你也可以按照你 所返回的文本部分中的链接进行搜寻,不过如果你不知道那些页面的格式,你的网络蜘蛛将无功而返。

 

小科同学不仅喜欢NBA还喜欢编程,这一天他顺利完成了科老师布置的20道编程题后,想起了科比20年的职业生涯数据,查阅数据如下: No Season Age TRB AST PTS 1 1996-97 18 1.9 1.3 7.6 2 1997-98 19 3.1 2.5 15.4 3 1998-99 20 5.3 3.8 19.9 4 1999-00 21 6.3 4.9 22.5 5 2000-01 22 5.9 5 28.5 6 2001-02 23 5.5 5.5 25.2 7 2002-03 24 6.9 5.9 30 8 2003-04 25 5.5 5.1 24 9 2004-05 26 5.9 6 27.6 10 2005-06 27 5.3 4.5 35.4 11 2006-07 28 5.7 5.4 31.6 12 2007-08 29 6.3 5.4 28.3 13 2008-09 30 5.2 4.9 26.8 14 2009-10 31 5.4 5 27 15 2010-11 32 5.1 4.7 25.3 16 2011-12 33 5.4 4.6 27.9 17 2012-13 34 5.6 6 27.3 18 2013-14 35 4.3 6.3 13.8 19 2014-15 36 5.7 5.6 22.3 20 2015-16 37 3.7 2.8 17.6 Career 5.2 4.7 25 请你帮助小科分析一下,职业生涯的数据需要你根据给定的数据在主函数里初始化,输入两个不同的赛季序号a和b(均已满足 1<=a<=20,1<=b<=20,a和b间隔不少于2),输出范围内的最高得分和次高得分以及对应的赛季名、年龄、得分(PTS)、助攻(AST)、篮板(TRB)数据。 给定原始数据格式 {1,"1996-97",18,1.9,1.3,7.6}, {2,"1997-98",19,3.1,2.5,15.4}, {3,"1998-99",20,5.3,3.8,19.9}, {4,"1999-00",21,6.3,4.9,22.5}, {5,"2000-01",22,5.9,5,28.5}, {6,"2001-02",23,5.5,5.5,25.2}, {7,"2002-03",24,6.9,5.9,30}, {8,"2003-04",25,5.5,5.1,24}, {9,"2004-05",26,5.9,6,27.6}, {10,"2005-06",27,5.3,4.5,35.4}, {11,"2006-07",28,5.7,5.4,31.6}, {12,"2007-08",29,6.3,5.4,28.3}, {13,"2008-09",30,5.2,4.9,26.8}, {14,"2009-10",31,5.4,5,27}, {15,"2010-11",32,5.1,4.7,25.3}, {16,"2011-12",33,5.4,4.6,27.9}, {17,"2012-13",34,5.6,6,27.3}, {18,"2013-14",35,4.3,6.3,13.8}, {19,"2014-15",36,5.7,5.6,22.3}, {20,"2015-16",37,3.7,2.8,17.6}
05-28
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值