Web数据挖掘综述

1.     基于WEB 数据挖掘的分类

根据挖掘的对象不同我们可以把基于WEB 的数据挖掘分为三大类:

²  基于WEB 内容的挖掘(WebContent Mining)

²  基于WEB 结构的挖掘(WebStructure Mining)

²  基于WEB 使用的挖掘(WebUsage Mining)

1)      基于WEB 内容的挖掘

       所谓基于WEB 内容的挖掘实际上就是从WEB 文档及其描述中获取知识, WEB文档文件挖掘以及基于概念索引或Agent技术的资源搜索也应该归于此类。Web 信息资源类型众多,目前WWW 信息资源已经成为网络信息资源的主体,然而除了大量的人们可以直接从网上抓取、建立索引、实现查询服务的资源之外,相当一部分信息是隐藏着的数据(如由用户的提问而动态生成的结果,存在于数据库系统中的数据,或是某些私人数据)无法被索引,从而无法提供对它们有效的检索方式,这就迫使我们把这些内容挖掘出来。若从信息资源的表现形式来看,WEB 信息内容是由文本、图像、音频、视频、元数据等种种形式的数据组成的,因而我们所说的基于WEB 内容的挖掘也是一种针对多媒体数据的挖掘。

2)      基于WEB 结构的挖掘

      这一类型的挖掘是从万维网的整体结构和网页上的相互链接中发现知识的过程,它主要挖掘WEB 潜在的链接结构模式。这种思想源于引文分析,即通过分析一个网页链接和被链接数量以及对象来建立WEB 自身的链接结构模式。这种模式可以用于网页归类并且可以由此获得有关不同网页间相似度及关联度的信息。WEB 结构挖掘有助于用户找到相关主题的权威站点,而且对网络资源检索结果的排序有很大意义。

3) 

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值