6.关键技术分析
1)抓取目标的定义与描述
(1)针对有目标网页特征的网页级信息。对应网页库级的垂直搜索.抓取目标网页,后续还要从中抽取出需要的结构化信息。这种技术在稳定性和数量上占优,但成本高、灵活性差。
(2)针对目标网页上的结构化数据。对应模板级垂直搜索.直接解析页面.提取并加I工出结构化数据信息。这种技术实施快,成本低,灵活性强.但后期维护成本高。
2)网页的分析与信息的提取
(1)基于网络拓扑关系的分析算法。根据页面间超链接引用关系对与已知网页有直接或间接关系的对象做出评价的算法,如网页粒度PageRank算法、网站粒度SiteRank算法。
(2)基于网页内容的分析算法。从最初的文本检索方法向涉及网页数据抽取、机器学习、数据挖掘、自然语言处理等多领域综合的方向发展。
(3)基于用户访问行为的分析算法。有代表性的是基于领域概念的分析算法,涉及本体论。
7.发展趋势
随着网络的不断发展,大量有价值的网页会隐藏在深层网络中,现在的网络爬虫对深层的网页中动态网页和数据库基本上是束手无策的。在现在搜索模式下如何跟上互联网这种发展趋势变得异常重要,深层的网络爬虫研究变得更加迫切。
AJAX技术已在网页中经常被应用到。使用AJAX的最大优点是网站维护数据可以不必更新整个页面,这样,Web应用程序可以更加快速地回应用户动作,并避免了在网络上发送那些没有改变的信息。这样的无闪局部刷新可以加快网页的刷新速度。
随着网络的不断发展.各种多媒体信息都出现在网页上,比如海量的图片、动画游戏、视频等.这些都需要搜索引擎有应对之策。伴随着搜索引擎的发展.各种基于网络的多媒体爬虫技术研究将会成为爬虫研究的新方向。随着对等网络P2P技术的发展,网络不是将所有的压力都分布在服务器端,而是将压力分担到每台用户的计算机上,这样每台客户端的计算机将作 为主机完成上传和下载工作。网络成员可在网络数据库里自由搜索、更新、回答和传送数据。