数据挖掘——认识数据

《数据挖掘》国防科技大学
《数据挖掘》青岛大学
《数据挖掘与python实践》

数据挖掘之认识数据

1. 数据和信息

**数据(data)**是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材

在计算机系统中,各种字母、数字符号的组合、语音、图形、图像等统称为数据,数据经过加工后就成为信息

2. 数据对象及属性类型

数据集由数据对象组成,一个数据对象对应一个实体,数据对象也可以成为元组
用于表示数据对象的特征或功能的数据字段称为属性
属性类型:

  1. 标称属性 nominal:状态可列举
    特殊:二进制属性,(0,1)
    · 对称二进制:数量相当
    · 不对称二进制:数量差距大
  2. 序数属性 ordinal:有意义的顺序,如大、中、小
  3. 区间标度属性 interval scaled:以单位长度顺序性度量,值有序,无零点,倍数无意义
  4. 比率标度属性 ratio scaled:具有固定零点的数值属性,有序且可以计算倍数
    (标称属性和叙述属性是定性的,区间标度属性和比率标度属性是定量的)

离散属性(Discrete Attribute)&连续属性(Continuous Attribute)

2. 数据统计

数据统计度量

集中趋势

  1. 均值 mean
  2. 中位数 median
  3. 众数 mode
    经验公式:mean - mode = 3×(mean - median)

离散趋势【变异程度的度量】

  1. 极差(range,全距):最大值与最小值的差距
  2. 方差(Variance):数据值与平均值之间的差异
    在这里插入图片描述
  3. 标准差(Standard deviation):方差的正平方根
  4. 变异系数:标准差相对于平均数的大小的度量
    在这里插入图片描述

分位数

四分位数(quartile): Q1 (25th 百分位数percentile), Q3 (75th percentile)
中间四分位数极差(Inter-quartile range): IQR = Q3 – Q1
五数概括: min, Q1, median, Q3, max

3. 数据可视化

数据可视化、过程可视化、结果可视化
基本统计图:

  1. 箱线图/盒图(Box plot):可以分析多个属性数据的分布差异性
    在这里插入图片描述
    离群点:通常情况下高于或低于1.5 IQR的值
  2. 直方图:可以分析单个属性在各个区间的变化分布
  3. 散点图:可以用来显示两组数据的相关性分布,正相关、负相关、不相关

4. 数据相似性

数据矩阵:N×p,N个数据,p个维度
相异矩阵,N个数据点,记录两点之间的距离,下三角矩阵
在这里插入图片描述

相似性度量

  1. 相似度 similarity:[0,1],值越大越相似
  2. 相异度 dissimilarity/distance:值越小越相似
  3. 邻近性 proximity (相似度或相异度)

(1)标称属性的邻近性度量
简单匹配
对于二值属性:
在这里插入图片描述
(2)序数属性的邻近性度量
在这里插入图片描述

(3)数值属性的邻近性度量
① 闵可夫斯基距离 Minkovski distance
在这里插入图片描述
在这里插入图片描述
曼哈顿距离 Manhattan Distance:L1范数
欧氏距离 Euclidean Distance:L2范数
上确界距离/切比雪夫距离 Supremum Distance:Lmax,L范数(指所有的属性之间,差值最大的即为两个对象的距离)
② Z-score(标准化)在这里插入图片描述
③ 余弦相似性
cos(d1, d2) = (d1 • d2) /||d1|| ||d2||
在这里插入图片描述
(4)混合属性的邻近性度量
在这里插入图片描述

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值