【大数据开发基础】第六章概念描述

  1. 数据挖掘的功能:
    1)概念描述:特征化和比较
    2)关联规则
    3)分类/预测
    4)聚类分析
    5)其他的数据挖掘任务

  2. 从数据分析的角度,DM可以分为两类:描述式挖掘和预测式挖掘

  3. 描述性数据挖掘的最简单类型;是以简洁的形式在更一般的(而不是较低层的)抽象层描述数据

  4. 概念描述用以产生数据的特征化和比较描述
    特征化:提供给定数据集的简洁汇总;(一个数据集)
    比较(区分):提供两个或多个数据集的比较描述(两个数据集,主目标数据集和对比数据集)
    在这里插入图片描述

  5. 定量描述规则
    t-weight(t-权):规则兴趣度度量指标。表示规则中一个析取项具有的代表性。
    t − w e i g h t = 目 标 集 合 个 数 初 始 数 据 集 中 总 行 数 t-weight=\frac {目标集合个数} {初始数据集中总行数} tweight=

例:在这里插入图片描述
在这里插入图片描述

2 属性相关分析

在数据挖掘任务中,去除掉不相关或弱相关的属性,将能降低数据挖掘的复杂度,同时提高数据挖掘的结果的质量。而该如何确定哪些属性是不相关或弱相关的呢?因此引出属性相关性分析

2.1 属性相关性分析的方法

基本思想:对给定的数据集,计算某种度量,用于量化属性与给定的类或概念间的相关性。

常用的度量包括信息增益、GINI索引、不确定性和相关系数等。

信息熵:不确定性

信息增益:确定性的增加

基于属性选择的方法我们以ID3算法为例:

  1. ID3算法:选择具有最大信息增益的属性作为当前划分的结点。ID3算法是一种有监督的方式。
  2. ID3算法原理:ID3算法根据一组类别已知的训练数据集来构造一棵决策树;然后利用构造的决策树对类别未知的数据对象进行分类
  3. ID3算法选择具有最大信息增益的属性作为决策树的根节点。

信息增益<阈值时,属性删掉
信息增益>阈值时,属性保留

2.2 属性相关性分析的步骤

  1. 数据收集
  2. 利用保守的AOI(面向属性的归纳)方法进行属性相关性分析。通过AOI方法获得的数据集被称为数据挖掘任务的候选数据集
  3. 利用选定的相关性分析度量删除不相关或弱相关的属性(如信息增益度量)
  4. 使用AOI产生概念描述。

第四步即:利用更严格的属性概化控制阈值来进行基于属性的归纳操作。若描述性挖掘任务是概念描述,仅涉及初始目标数据集;若描述挖掘任务是比较概念描述,则需包括初始目标数据集,及相应的对比数据集。

3 挖掘类比较:区分不同的类

  1. 比较概念描述:即基于对比数据集挖掘出目标数据集的概念描述。
  2. 注意:
    1)对比数据集和目标数据集应具有相同的属性
    2)面向属性的归纳应在所有比较类(比较的数据集)上同步进行。以确保数据集中属性均被概化到同一抽象层次。
  3. 比较概念描述的实现步骤
    1)数据收集
    2)属性相关性分析
    2)同步概化
    4)挖掘结果表示
  4. 特征化概念描述类似,比较概念描述也可采用多种形式,如:关系表、组合表、棒图、曲线和规则的形式加以表示。这里着重介绍基于规则的表示方法
  5. d_weight: q a q_a qa所包含的目标数据集中数据行数qa所涵盖的所有数据行数(包括目标数据集及所有对比数据集)之比。其中 q a q_a qa是一个概化后的数据行
  6. 目标数据集中一个较大的d_weight值意味着相应的概念(概化后某一数据行)涵盖较多的目标数据集中的初始数据行;反之,则意味着该概念涵盖较多的非目标(对比)数据集中的初始数据行。

例:
在这里插入图片描述
获得的一个概化后的数据行为“major=“科学”and age_range=“25-30” and gpa=“良””的有关内容如表9所示。
在这里插入图片描述
从表9得到: major=“科学”and age_range=“25-30” and gpa=“良”
该数据行相对目标数据集的d_weight为:90/(210+90)=30%
而相对对比数据集的d_weight为:210/(210+90)=70%
即:若一个学生专业为“科学”,年龄在25-30之间且gpa为良,则根据现有数据,有30%的可能为研究生,而70%的可能为本科生。

4 常见的统计度量指标

中心趋势:均值、中位数、模
数据分布:四分位数、方差、标注差

4.1 中心趋势度量指标

1)算数平均值
在这里插入图片描述

2)加权平均值:反映相应值的重要性、显著率或发生概率。
在这里插入图片描述

3)中位数:先对数据进行排序,若数据值个数为奇数,中位数即为最中间的那个数,否则,取中间两个数的平均值
4)众数:模。集合中出现频率最高的数据

4.2 离散趋势度量指标

1)四分位数
2)方差和标准差

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值