数据挖掘导论可视化部分总结

三个主题:汇总统计、可视化技术、联机分析处理OLAP

1-汇总统计的几个值:
* 频率
* 众数
* 百分位数:顾名思义,有序数据集合的百分位点的数值
* 均值
* 中位数
* 极差:数据的最大和最小的差
* 方差

        使用可视化技术可以快速地吸取大量可视化信息,有时候,使用非可视化工具来分析,以可视化来描述结果,并将结果交与领域专家进行快速排查,可以直接聚焦到重要模式上。

2-可视化数据的技术:
* 茎叶图:针对少量数据,来观测一维整型或连续数据,简单地说就是一种形式的直方图,例如,数据是一组2位数的整型,高位数字为茎,低位数字为叶,在画直方图时,纵轴为茎,横轴为叶,表现为横向的直方图。
* 直方图:太熟悉了,不说了
* 二维直方图:好吧,其实就是加了一条属性,将直方图显示由长方形变成长方体,更容易发现两个属性同时出现的模式,但是也因为柱体遮挡,观察不便。
* 盒状图:感觉是直方图的变形啊,直方图是将数据的多个区间用多个长方形展示,盒状图是将数据的几个重要值用一个长方形展示,这几个值分别是(10%、25%、50%、75%、90%百分位数)。
* 饼图:也很熟悉吧,不说
* 散布图:以二维简单说就是在一个平面上根据两个属性来描点,以此来观察两个属性的相关程度和两个属性能否将数据分成两个或多个类。
* 等高线图:学过地理的都知道
* 曲面图:学过高数的都知道
* 矢量场图:学过物理的都知道
* 星形图:一个点引生出几条线,一个属性一条线,然后将线的顶点连线,哈哈,一个星星(尴尬),可以用于快速比较具有少量数据的对象。

3-可视化原则(搬运工):
* 理解:图形能否透彻地理解变量之间的关系。
* 清晰性:最重要的元素或关系在视觉上突出吗?
* 一致性:与以前解释图形的标记、符号、特征一致吗?(自成一派好像也没什么关系)
* 有效性:用尽可能简单地图形来描绘复杂关系的能力,图形元素的使用经济吗?
* 必要性:与文本或者表格相比,图形的表现是必要的吗?
* 真实性:图形表示真实值的能力,使用图形可以准确的定标定位吗?

4-多维数组分析数据:

        通常数据的表示都是用表来实现的,多维数组分析数据,这里的一个维解释为数据的一条属性,对属性值进行量化,使得属性值可以充当数组的下标,属性值的个数就是维的大小,原先表格的一行数据在多维数组中则转化为一个单元。

        数据的多维表示,连同所有可能的总和(聚集)称作数据立方体(data cube),这是定义,如time属性可能有日-周-月-季年的从底层到高层的概念分层,将数据从低层汇总到高层可以有效减少分析数据的规模,而不损失感兴趣的数据信息,数据立方体对维的数量和各个维的大小不做要求,

5-分析多维数据的方法:
* 维归约:维=属性,维归约,减少分析的属性个数,大部分数据挖掘算法要求维的个数要少,而且如果维的个数过多容易引起维灾难,使得许多分类和聚类算法准确率降低,质量下降.
* 基于PCA的维归约:PCA(principle components analysis)主成分分析,也叫K-L方法,对于n维数据,搜索k个最能代表数据的n为正交向量,将高维数据投影到低维空间。因为筛选出了主要成分,所以可以很好的进行稀疏数据的处理。
–分析的基本步骤:
1-规范化输入的数据:所有属性落在相同的区间内;
2-计算k个标准正交向量,即主成分;
3-每个输入数据的向量都是这k个主成分向量的线性组合;
4-主成分按照重要程度降序排序。
* 基于聚集的维归约:就是将一个维的数据汇总成一个数据,以此来降维。
* 转轴:(pivoting)是指指定两个维之外的所有维进行聚集
* 切片:(slicing)很好理解,指定一个维或者多个维的特定值,从原数据取出一组数据。
* 切块:(dicing)很好理解,指定一个维或者多个维的一个区间,从原数据取出一组数据。
* 上卷:(roll up)将数据从低层次汇总到高层次进行分析。
* 下钻:(drill down)将数据从高层次分解到低层次进行分析。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值