1. 基于WEB 数据挖掘的分类
根据挖掘的对象不同我们可以把基于WEB 的数据挖掘分为三大类:
² 基于WEB 内容的挖掘(WebContent Mining)
² 基于WEB 结构的挖掘(WebStructure Mining)
² 基于WEB 使用的挖掘(WebUsage Mining)
1) 基于WEB 内容的挖掘
所谓基于WEB 内容的挖掘实际上就是从WEB 文档及其描述中获取知识, WEB文档文件挖掘以及基于概念索引或Agent技术的资源搜索也应该归于此类。Web 信息资源类型众多,目前WWW 信息资源已经成为网络信息资源的主体,然而除了大量的人们可以直接从网上抓取、建立索引、实现查询服务的资源之外,相当一部分信息是隐藏着的数据(如由用户的提问而动态生成的结果,存在于数据库系统中的数据,或是某些私人数据)无法被索引,从而无法提供对它们有效的检索方式,这就迫使我们把这些内容挖掘出来。若从信息资源的表现形式来看,WEB 信息内容是由文本、图像、音频、视频、元数据等种种形式的数据组成的,因而我们所说的基于WEB 内容的挖掘也是一种针对多媒体数据的挖掘。
2) 基于WEB 结构的挖掘
这一类型的挖掘是从万维网的整体结构和网页上的相互链接中发现知识的过程,它主要挖掘WEB 潜在的链接结构模式。这种思想源于引文分析,即通过分析一个网页链接和被链接数量以及对象来建立WEB 自身的链接结构模式。这种模式可以用于网页归类并且可以由此获得有关不同网页间相似度及关联度的信息。WEB 结构挖掘有助于用户找到相关主题的权威站点,而且对网络资源检索结果的排序有很大意义。
3)