挖掘对象、空间、多媒体、文本和Web数据

 

 

1.复杂数据对象的挖掘处理

答:这里的对象是指复杂但相对结构化的数据对象,这些数据对象不能简单的用数据关系来表示,大多数拥有这些数据的应用基本上是面向对象的。这个时候,对数据对象的挖掘就是对复杂结构化的数据对象进行处理。挖掘复杂数据对象的任务是建立复杂对象的多维数据仓库,做联机处理分析,针对多维数据仓库做有效、可伸缩的数据挖掘。结构化多维数据挖掘处理遵循通用的挖掘过程,可以采用一般的数据规约方法。

 

2.空间数据的挖掘处理

答:空间数据的特点是存在大量与空间相关的数据,包含拓扑或者距离信息,对地理、空间方面有帮助。空间数据挖掘是指提取空间数据库中非显式存储的知识、空间联系或其他有趣的模式。空间数据仓库是面向主题的、集成的、时变的、非易失性的空间数据和非空间数据的集合,用于支持空间数据挖掘和与空间数据相关的决策过程。

由于空间数据信息由空间信息和非空间信息两部分组成,,所以针对空间信息要采用专门的空间维度来保存,做空间信息的挖掘;针对非空间信息要在空间维度的基础上进行非空间信息的处理。空间信息的常用数据挖掘方法有空间数据立方体处理方法和空间聚类方法。

 

3.多媒体数据的挖掘处理

答:多媒体数据信息是多类信息的数据集合,这些信息数据集合的信息类型有视频、图像、图形、声音、文本、文档、超文本数据等。对多媒体数据的数据挖掘就是针对各种信息类型进行数据挖掘,可以是组合信息的索引,也可以是信息内容。多媒体信息的数据挖掘是一种复合型的数据挖掘,可能同时要使用多种数据挖掘的方法,分别处理图像、文本、声音、空间等。

 

4.文本数据的挖掘处理

答:文本信息是有各种数据文档组成的,与其他类型的数据不同,文本数据的数据挖掘任务重点关心文本的信息检索。一般检索方法分为两类:文档选择问题和文档秩评定问题。文档选择问题看作是对选择相关文档指定约束条件,类似于给定足够的选择项约束集合,然后根据约束集合中的条件对文档进行筛选,非集合内的条件不被接受。文档秩评定方法使用查询,按相关次序评定所有文档的秩,通过秩的评定来响应客户的查询。确定了这两种方法需要解决的主要问题,对文档选择问题来说:数据预处理、规约、设定标签、索引、约束条件集合是要重点考虑的因素;对于文档秩评定问题的来说:约束条件的权值设定、数据的预处理、规约、文档组成部分的信息挖掘等是要重点考察的因素。

 

5.Web信息的数据挖掘

答:Web信息网络作为现在一个巨大并告诉增长的信息库,是一个数据挖掘的重要场所。由于Web

本身的结构特点和信息内容重点集中于某些结构上,这有助于信息挖掘。但是这种结构是弹性很大的,有时甚至是动态的,在数据挖掘的过程中要考虑这些特点。常规的数据挖掘方法是仿照文本的数据挖掘方法中文档秩评定问题,对Web信息设定一些权重标准,如高引用的页面、时间、内容、搜素条件的词汇复合等,最后返回一组经过秩评定的Web信息页面。

 

6.数据挖掘的理论基础

答:数据规约、数据压缩、模式发现、概率论、微观经济学观点、归纳数据库等。

 

7.可以应用数据挖掘的前提条件

答:必须有足够的数据是最基础的前提,不论这些数据是孤立的还是有序一致的。有了数据也不一定要应用数据挖掘,如果要挖掘的信息是基础数据所不具备的信息,这也是枉然。当数据足够多,需要获取的信息可以从数据中获得支持,还要考虑获取数据的成本问题,就是构建数据仓库、数据挖掘、联机数据分析、数据展示所消耗的成本问题。如果这些前提条件都满足,就可以进行数据挖掘。因为整个挖掘过程是需要消耗时间成本的,对响应时间要求没有那么严格,所以数据挖掘最好是采用存量异步处理+增量异步处理结合的方式进行,还要考虑数据挖掘任务的紧急性和重要性排序。

发布了404 篇原创文章 · 获赞 45 · 访问量 37万+
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 编程工作室 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览