Web结构挖掘算法概述

WEB结构挖掘算法概述及应用
Web结构挖掘算法概述及应用
[内容提要] Web 结构挖掘是对Web 的链接结构进行分析。本文概述Web结构挖掘技术,列举其常见算法。并对PageRank和HITS这两种最重要的Web结构挖掘算法分析比较。通过对算法规律的研究,指出在网站设计规划时的策略以提高网站的价值。
 
[关键词]Web结构挖掘 PageRank HITS
 
Summarization and application of Web Structure Mining arithmetic
Abstract:  This paper introduces the conception of Web structure mining, and analyses the authoritative algorithms based on Web hyperlink structure. At the end, correlative application on increasing the rank of the website by Web structure mining algorithms.
 
Key words:  Web Structure Mining ; PageRank;Hyperlink-Induced Topic Search (HITS);
 
一、    引言
数据挖掘是将人工智能技术和数据库技术紧密结合发展出的一门新的技术,利用计算机从庞大的数据中智能地、自动地抽取有价值的知识模式,以满足人们不同应用的需要。随着互联网的普及和迅猛发展、Web上信息量的爆炸式增长, 网上的资源得到极大丰富, 但也充斥着大量的垃圾信息, 人们迫切需要能从这些纷繁芜杂的信息中找到有用知识的工具。鉴于数据挖掘工具的日益成熟完善, 人们自然而然想到了要把数据挖掘技术应用到Web上来。
Web挖掘指在WWW 上挖掘潜在的、有用的模式及隐藏的信息过程。根据对Web数据的感兴趣程度不同,Web挖掘一般可以分为三类:Web内容挖掘(Web Content mining)、 Web结构挖掘( Web structure mining)、 Web 用法挖掘(Web usage Mining)
其中Web 结构挖掘是对Web 的链接结构进行分析, 以对超链接分析来评估基础Web 资源, 从而发现有用模式, 提高搜索质量。
二、    Web结构挖掘综述
传统的WEB搜索引擎大多数是基于关键字匹配的,返回的结果是包含查询项的文档,也有基于目录分类的搜索引擎。这些搜索引擎的结果并不令人满意。有些站点有意提高关键字出现的频率来提高自身在搜索引擎中的重要性,破坏搜索引擎结果的客观性和准确性。另外,有些重要的网页并不包含查询项。搜索引擎的分类目录也不可能把所有的分类考虑全面,并且目录大多靠人工维护,主观性强,费用高,更新速度慢。
Web结构包括不同网页之间的超链接结构和一个网页内部的可以用HTML,XML表示成的树开结构,以及文档URL中的目录路径结构等。Web页之间的超链接结构中包含了许多有用的信息,当网页A到网页B存在一个超链接时,则说明网页A的作者认为网页B的内容非常重要,且两个网页的内容具有相似的主题。因此,指向一个文档的超链接体现了该文档的被引用情况。如果大量的链接都指向了同一个网页,我们就认为它是一个权威页。这就类似于论文对参考文献的引用,如果某一篇文章经常被引用,就说明它非常重要。这种思想有助于对搜索引擎的返回结果进行相关度排序。从WWW的组织结构和链接关系中推导知识。通过对Web站点的结构进行分析、变形和归纳,将Web页面进行分类,分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式,确定不同页面间的相似度和关联度信息。定位相关主题的权威站点,可以极大的提高检索结果的质量。
基于这种超链分析的思想,Sergey Brin和Lawrence Page在1

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值