数据挖掘导论 (三)

原创 2016年06月01日 09:59:55

第三章 探索数据

汇总统计

频率和众数

频率:即该类的数量占总数的百分比
分类属性的众数:具有最高频率的值

百分位数计算:其实就是计算低于P%的数据的最大值

第1步:以递增顺序排列原始数据(即从小到大排列)。

第2步:计算指数i=np%

第3步:

  l)若 i 不是整数,将 i 向上取整。大于i的毗邻整数即为第p百分位数的位置。

  2) 若i是整数,则第p百分位数是第i项与第(i+l)项数据的平均值。

下面我们开始计算P10:

  1. 按照上述的计算公式i=n*p%=10*10%=1,其中n为1到10的整数个数,也就是10,P=10,所以我们得到i=1
     
  2. i=1是整数,那我们计算P10=(x(i)+x(i+1))/2=(1+2)/2=1.5

剩下的大家可以按照这个公式以此计算了。

均值和中位数


均值:就是数据的平均值 中位数:数据最中间的数(但是要从小到大顺序排列)
因为均值对于离群值很敏感,有时使用截断均值。指定0和100间的百分位数p,丢弃高端和低端的(p/2)%的数据,然后计算均值。意思就是说,把前(p/2)%和后(p/2)%的数据扔掉,计算中间的数据均值 就能避免离群值。

极差和方差


极差:最大值与最小值的差
方差:每个数与平均值的差的均方误差。用以体现变化程度因为均值受离群值影响,所以方差也很敏感。

绝对平均偏差 AAD ,中位数绝对偏差 MAD  ,四分位数极差IQR


多元汇总统计

协方差矩阵:由不同属性的协方差构成的矩阵

协方差上的对角线,是属性的方差。即
对于数据探索,相关性矩阵比协方差更可取,表示每两个属性的相关性。


可视化

一般概念

  1. 表示:将数据映射到图形元素 即选择什么样的图
  2. 安排:即如何排列数据 呈现更好的效果
  3. 选择:即选择要可视化的属性 是否需要删除或不突出某些属性

技术

  • 少量属性的可视化
1、茎叶图:可以用来观测一维整形或连续型数据的分布。茎是高位数字,叶是低位数字 如图


2、直方图:将茎叶图用条形图来表示


3、二维直方图:将每个属性划分成区间,两个区间集定义值。


4、盒装图:盒的上端是第75个百分位数,下端是第25个百分位数,盒中的线是第五十个百分位数的值。


5、饼图:通常用于相对较少的分类属性,用面积表示相对频率。但是在技术上,平方图更可取。因为相对面积大小很难确定


6、散布图
用途:1、图形化地显示两个属性之间的关系。2、当类标号给出时,考察两个属性将类分开的程度。


使用散布图的方法:也可以根据三个属性而不是两个属性来显示每个对象

  • 可视化时间空间数据
1、等高线图:描述温度或海拔高度

2、曲面图:描述数学函数,或变化相对光滑的物理曲面


  • 可视化高维数据
1、矩阵:存储图像的亮度和颜色(如果类标号已知,重新排列次序,让同类的对象聚集在一起,是很有用的方法。如果属性列值域不同,则要进行标准化,让均值为0,标准差为1,避免值大的属性左右图形


2、平行坐标系:每个属性一个坐标轴,相互平行,最后用连线连接
缺点:如果线交叉太多,则图形会变得模糊不清。需要安排坐标轴,以得到较少交叉的坐标轴序列

3、星型坐标和Chernoff脸


注意事项

理解,清晰性,一致性,有效性,必要性,真实性

OLAP和多维数据分析

事实表:

用多维数组表示数据



步骤:1、维的识别  2、分析所关注的属性的识别

分析多维数据

数据立方体:计算聚集量 (计算边缘总和)

维规约和转轴(减少维度,转轴:在除两个维之外的所有维上聚集,即只保留两个维)







版权声明:本文为博主原创文章,未经博主允许不得转载。

《数据挖掘导论》学习笔记(第1-2章)

《数据挖掘导论》 学习笔记 本文主要是在学习《数据挖掘导论(完整版)》中第1章至第2章的学习笔记,主要用来梳理思路,并没有多少思考,我尽量会在后期多弥补这方面的不足。...
  • u013232035
  • u013232035
  • 2015年09月08日 14:41
  • 661

数据挖掘导论 之 聚类分析

这篇文章对《数据挖掘导论》中聚类分析这部分做一个总结。
  • Claire_Bear7
  • Claire_Bear7
  • 2015年07月01日 16:53
  • 940

【笔记】数据挖掘导论(持续更新)

第一章 绪论数据分析技术的应用: 商务、医学、科学与工程数据挖掘:在大型数据存储库中,自动地发现有用信息的过程。 与信息检索不同。 KDD:knowledge discovery in data...
  • Aprilxdy
  • Aprilxdy
  • 2017年04月20日 12:00
  • 502

《数据挖掘导论》学习笔记-离散化

什么是离散化: 连续属性的离散化就是将连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值代表落在每个子区间中的属性值。 为什么要离散化 连续属性离散化的目的是为了简化数据结构,...
  • programmer_wei
  • programmer_wei
  • 2013年12月08日 15:18
  • 3754

<数据挖掘--概念与技术>读后感

数据挖掘的目标是从数据集中识别出一种或多种模式,并用所发现的模式进行分析或预测。...
  • Eric77
  • Eric77
  • 2017年05月20日 23:53
  • 391

数据挖掘导论(Pang-Ning Tan)习题记录

第2章 数据
  • wanwei123
  • wanwei123
  • 2014年05月30日 22:16
  • 514

数据挖掘的一般步骤

数据挖掘的一般步骤 从数据本身来考虑,数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示8个步骤。 步骤(1)信息收集:根据确定的数据分析对象...
  • broadview2006
  • broadview2006
  • 2013年04月01日 14:05
  • 9812

数据挖掘中的异常检测

数据挖掘中异常检测 最近在做聚类,是利用出租车上车下车地点信息聚类商圈和生活区域,在实战过程中,遇到了很多问题 其一:聚类中心点的确定,我们聚类结果要返回一个经纬度信息,或者说这是一个商圈的中心地...
  • sinat_33179560
  • sinat_33179560
  • 2017年03月22日 12:03
  • 443

数据挖掘导论--数据

数据挖掘导论–数据本Markdown编辑器使用[StackEdit][6]修改而来,用它写博客,将会带来全新的体验哦: 写在前面的话:学习过的知识不常用就会生疏,概念的东西特别容易遗忘,还是老老实实...
  • czwhczwh75
  • czwhczwh75
  • 2016年04月21日 23:38
  • 120

机器学习资料与攻略超强整理吐血推荐(二)

在前文《机器学习资料与攻略超强整理吐血推荐(一) 》中,我们讲到要进入人工智能的圈子,数学是不可逾越的第一关,然后我们又推荐了一些你必须掌握的数学方面的资料。接下来,在这一篇中,我们将介绍关于机器学习...
  • zhuwei0710
  • zhuwei0710
  • 2017年03月31日 11:19
  • 635
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:数据挖掘导论 (三)
举报原因:
原因补充:

(最多只允许输入30个字)