数据挖掘学习笔记1

最新推荐文章于 2024-04-28 20:22:19 发布

shijieyidian

最新推荐文章于 2024-04-28 20:22:19 发布

阅读量221

点赞数

分类专栏：机器学习文章标签：数据挖掘机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shijieyidian/article/details/124172485

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数据挖掘学习笔记——第一次

本博客材料源于《数据之魅：基于开源工具的数据分析》

第二章：单一变量的形状和分布

处理单变量数据，我们更关注分布的总体形状。
一般有以下几个基本问题：

数据点分布在哪些地方？数据点分布所具有的代表性
数据点的分布具有特征吗？是集中的还是聚集的
数据点一共有多少？
数据分布是否对称？就是数据分布的形状
是否有聚类？聚类有几个？聚类的含义是什么
数据集中有无异常数据
数据集中有无其他不寻常的特征，比如异常值之类的。

针对单一变量，在EXCEL上就是一列数据，直观上我们倾向于把这些列数据按照index次序在二维平面上画成一条折线。

这种方法直观方便，在很多时候是可以的。但是这种简单的按照index来排序的方法之不是在画图而已。

想要找到单一变量的数据值分布情况，需要采取别的办法:

抖动图
直方图
核密度估计

抖动图

面对离散数据数据，可以先采用离散数据连续化的方法，将离散数据的每一类标号，记录每一种固定数据值的数量，这种办法在文本数据上很常见。

面对较为固定的数据，抖动图是很好的方法，它可以让数据之间不那么拥挤。

抖动图的实现方式

直方图

面对一列数据，我们很自然想要使用折线图，但是折线图不美观而且经常不能反应数据的分布，于是我们可以采用直方图。

直方图就是将数据范围划分成若干个区间，统计这若干个区间内的点数量，之后再表现在二维坐标上。

直方图要点：

区间的宽度和区间的对齐方式。

宽度太宽，将会消除数据分布的特异性；太狭窄，则会消除数据分布的内在本质。

区间对齐虽然有影响，但是不大，所以先不讨论了

直方图绘制

核密度估计KDE

核密度估计不需要考虑直方图的区间宽度和对齐方式。

核密度估计就是使用一个核函数——一个平滑的峰值突出的函数——放在每一个数据点的位置上。然后将所有核函数的作用效果叠加，获得一条光滑的曲线。

一般使用高斯核函数

选择最优带宽

实现Gaussian KDE

未完待续

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘学习笔记1

数据挖掘学习笔记——第一次本博客材料源于《数据之魅：基于开源工具的数据分析》第二章：单一变量的形状和分布处理单变量数据，我们更关注分布的总体形状。一般有以下几个基本问题：数据点分布在哪些地方？数据点分布所具有的代表性数据点的分布具有特征吗？是集中的还是聚集的数据点一共有多少？数据分布是否对称？就是数据分布的形状是否有聚类？聚类有几个？聚类的含义是什么数据集中有无异常数据数据集中有无其他不寻常的特征，比如异常值之类的。针对单一变量，在EXCEL上就是一列数据，直观上我们倾向于把这些
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。