数据挖掘学习笔记(二)

第二章 认识数据

一、数据的属性
1.标称属性
值得特征:代表:某种类别、状态、编码。不必具有:有意义的顺序性、定量处理任务。
标称属性——分类的
标称属性值——枚举的
2.二元属性(布尔属性)
值得特征:只有两个类别或状态
3.序数属性(定序型)
值得特征:具有有意义的顺序性或秩的评定性。
在这里插入图片描述
4.数值属性
值得特征:整数或实数
5.离散属性
6.连续属性
二、数据的基本统计描述
1.均值
分类:①算数均值 ②加权算数均值 (每一个值xi,与一个权重wi相关联)
加权算数平均值扩展–频数(分布)表。
在这里插入图片描述
在这里插入图片描述
2.中位数
在这里插入图片描述
在这里插入图片描述
3**.众数**
含义:在集合中,出现次数最多的值。
数据集合的分类:单峰的→多峰的
4.中列数
在数据集中,最大值和最小值的平均值。
在这里插入图片描述
三、数据发散度量
1.极差
最大值和最小值的差
缺点:①小数据量的粗略分析②仅关注了最值的区间→其他数据的变异情况未知
2.分位数

  • 有序数据被等份→每一个间隔点的值:分位数。(常见中位数(二分位数)、四分位数、百分位数)
  • 数据分布的中心情况:中位数
  • 数据分布的散布情况:一个百分位数Px(第X个百分位数)→数据被划成两部分
  • (1)小于Px的值最多X%;或X%的值小于等于Px
  • (2)大于Px的值最多1-X%,或1-X%的值大于等于Px。
    在这里插入图片描述
    在这里插入图片描述
    3.方差与标准差
  • 描述数据分布的散布程度
  • 比标准差低→数据趋向于:非常靠近均值
  • 比标准差高→数据散布于:大的值区域
  • 计算公式在这里插入图片描述
    四、基本统计描述图形显示
    1.直方图
    2.散点图
    3.分位数图
    五、数据相似性和相异性度量
    相似性和向异性统称:(邻近性)
    1.相异性矩阵
  • 存放n个对象、两两之前的邻近度
  • 通常用n*n矩阵表示值
  • d(i,j) 是对象i和j之间相异性的度量。对象i和j高度相似→值接近于0. 越不同→该值越大。
  • 不匹配率的计算:d(i,j)=(p-m)/p (m:匹配的数目→对象i和j取值相同状态的属性数 )(p:对象的属性总数)
  • 在这里插入图片描述
  • 在这里插入图片描述
  • 匹配率:sum(i,j)=1-d(i,j)

—————————————————————————
下次再更吧

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值