数据挖掘——认识数据

　木夕敢敢

已于 2022-04-09 16:43:08 修改

阅读量3.3k

点赞数 1

分类专栏：数据挖掘文章标签：数据挖掘

于 2022-04-09 16:41:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Lilo_/article/details/124061828

版权

数据挖掘专栏收录该内容

10 篇文章 9 订阅

订阅专栏

《数据挖掘》国防科技大学
 《数据挖掘》青岛大学
 《数据挖掘与python实践》

数据挖掘之认识数据

1. 数据和信息

**数据(data)**是事实或观察的结果，是对客观事物的逻辑归纳，是用于表示客观事物的未经加工的原始素材。

在计算机系统中，各种字母、数字符号的组合、语音、图形、图像等统称为数据，数据经过加工后就成为信息。

2. 数据对象及属性类型

数据集由数据对象组成，一个数据对象对应一个实体，数据对象也可以成为元组。
用于表示数据对象的特征或功能的数据字段称为属性。
属性类型：

标称属性 nominal：状态可列举
特殊：二进制属性，（0，1）
· 对称二进制：数量相当
· 不对称二进制：数量差距大
序数属性 ordinal：有意义的顺序，如大、中、小
区间标度属性 interval scaled：以单位长度顺序性度量，值有序，无零点，倍数无意义
比率标度属性 ratio scaled：具有固定零点的数值属性，有序且可以计算倍数
（标称属性和叙述属性是定性的，区间标度属性和比率标度属性是定量的）

离散属性(Discrete Attribute)&连续属性(Continuous Attribute)

2. 数据统计

数据统计度量

集中趋势

均值 mean
中位数 median
众数 mode
经验公式：mean - mode = 3×(mean - median)

离散趋势【变异程度的度量】

极差（range，全距）：最大值与最小值的差距
方差（Variance）：数据值与平均值之间的差异
标准差（Standard deviation）：方差的正平方根
变异系数：标准差相对于平均数的大小的度量

分位数

四分位数（quartile）: Q1 (25th 百分位数percentile), Q3 (75th percentile)
中间四分位数极差（Inter-quartile range）: IQR = Q3 – Q1
五数概括: min, Q1, median, Q3, max

3. 数据可视化

数据可视化、过程可视化、结果可视化
基本统计图：

箱线图/盒图（Box plot）：可以分析多个属性数据的分布差异性

离群点：通常情况下高于或低于1.5 IQR的值
直方图：可以分析单个属性在各个区间的变化分布
散点图：可以用来显示两组数据的相关性分布，正相关、负相关、不相关

4. 数据相似性

数据矩阵：N×p，N个数据，p个维度
相异矩阵，N个数据点，记录两点之间的距离，下三角矩阵
在这里插入图片描述

相似性度量

相似度 similarity：[0,1]，值越大越相似
相异度 dissimilarity/distance：值越小越相似
邻近性 proximity （相似度或相异度）

（1）标称属性的邻近性度量
简单匹配
对于二值属性：
在这里插入图片描述
（2）序数属性的邻近性度量

（3）数值属性的邻近性度量
① 闵可夫斯基距离 Minkovski distance
在这里插入图片描述

曼哈顿距离 Manhattan Distance：L1范数
欧氏距离 Euclidean Distance：L2范数
上确界距离/切比雪夫距离 Supremum Distance：L_max，L_∞范数（指所有的属性之间，差值最大的即为两个对象的距离）
② Z-score（标准化）
③ 余弦相似性
cos(d1, d2) = (d1 • d2) /||d1|| ||d2||
在这里插入图片描述
（4）混合属性的邻近性度量

　木夕敢敢

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。