定义数据挖掘任务

一个数据挖掘任务可以通过数据挖掘查询,它是数据挖掘系统的输入。数据挖掘查询用一下原语定义:
①任务相关数据:我想挖据什么数据集?
②我想挖掘什么知识?
③什么背景知识这里可能有用?
④哪些度量可以用来评估模式的兴趣度?
⑤我希望如何提供发现的模式?

一、任务相关的数据
    这个原语说明了待挖掘的数据。通常,用户感兴趣的只是数据库的一个子集。在关系数据库中,任务相关的数据可以通过选择、投影和聚集等操作关系查询收集。这种数据提取可以看做是数据挖掘的子任务。数据收集过程产生一个新的数据关系,称作为: 初始数据关系 (视图)。这种可用于数据挖掘的数据集称作 可挖掘的视图

二、要挖掘的知识类型
    说明挖掘什么类型的知识是非常重要的,因为这决定使用什么数据挖掘功能。知识类型包括:概念描述、分类/预测、聚类、关联和演变分析。
    
三、背景知识:概念分层
    背景知识是关于数据挖掘领域的知识,它们在发现过程中是非常有用的。现在我们来看概念分层的背景知识上,概念分层允许在多个抽象层上发现知识。
     概念分层 定义了一组由低层概念集到高层概念集的映射。将较低层的概念(城市)映射到较高层更一般的概念(国家)。
    概念分层是一种有用的背景知识形式,它使得原始数据可以在较高的、一般的抽象层上进行处理。数据的泛化或上卷可以通过用较高层概念替换较低层的概念。泛化的另一个优点是数据压缩。如果结果过于一般化,概念分层也允许下钻,概念值用较低层的概念替代。对于给定的属性或维,根据不同用户的观点,可能有多个概念分层。
     
    概念分层可以划分为4种类型:
     模式分层 :是数据库模式属性间的全序或偏序。模式分层可以形式地表示属性间的语义联系。通常,一个模式分层是指数据仓库的一个维。
       如:address:street<city<province<country
     集合分组分层 :是将给定的属性或维的值组织成常量组或区间值。组之间可以定义全序或偏序。
       如:属性age的集合分组分层
           {young,middle_aged,senior}=>all(age)
     操作导出的分层 :是根据用户、专家或数据挖掘系统说明的操作分层。操作可能包括信息编码串的解码,由复杂数据对象提取信息和数据聚类。
     基于规则的概念分层 :指整个概念分层或它的一部分由一组规则定义,并且根据当前数据库数据和规则定义动态地计算。
       如:可以将商品分类为:low_profit_margin,medium_profit_margin,high_profit_margin,按照一定的规则。

四、兴趣度度量
    尽管任务相关的数据和要挖掘的知识类型(如:特征和关联等),的说明可以大大减少产生规则的数量,数据挖掘过程仍可能产生大量模式。通常这些模式中只有一小部分是用户感兴趣的。这样用户需要进一步限制挖掘过程产生的不感兴趣的模式数量。这可以通过设定兴趣度来实现。
    置信度和支持度。

五、数据挖掘查询语言(DMQL)
    
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值