【读书笔记-数据挖掘概念与技术】认识数据

属性分类:

  • 标称属性(定性)
  • 二元属性(定性)
  • 序数属性(定性)
  • 数值属性(定量)

标称属性——“与名称相关”,它的值是一些符号或事物的名称。
eg.头发颜色(黑色、棕色、淡黄色、红色)
婚姻状况(单身、已婚、离异、丧偶)

二元属性——标称属性的一种,只有两个类别或状态:0或1(布尔属性)。
有对称与非对称之分,对称——两种状态具有同等价值并且携带相同的权重 eg.性别
非对称——其状态的结果不是同样重要 eg.化验结果(阴性0、阳性1)
序数属性——它的值之间具有有意义的序或秩评定,但相继值之间的差是未知的。
eg.成绩(A+、A、A-、B+、B、……)
评价(0——差评、1——中性、2——好评)
数值属性——它的值是可度量的量,用整数或实数值表示。可以是去见标度的或比率标度的
区间标度——eg.温度(5°、10°、15°、……)
比率标度——eg.重量、高度、速度、货币量

机器学习领域分类:
  • 离散属性
  • 连续属性

—————————————————————————————————————————————————————————————————————————————

数据的基本统计描述


中心趋势度量——均值、中位数、众数

度量数据散布——极差、四分位数、方差、标准差、四分位数极差

  • 极差:最大数-最小数
  • 四分位数:即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。
第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。 Q1的位置= (n+1) × 0.25
第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。 Q2的位置= (n+1) × 0.5
第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。 Q3的位置= (n+1) × 0.75
第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。
  • 四分位极差(IQR)=Q3-Q1
  • 五数概括——中位数Q2、四分位数Q1和Q3、最大值和最小值
  • 盒图(箱型图)——通过盒图,在分析数据的时候,盒图能够有效地帮助我们识别数据的特征:
    1、直观地识别数据集中的异常值(查看离群点)。
    2、判断数据集的数据离散程度和偏向(观察盒子的长度,上下隔间的形状,以及胡须的长度)。

  • 方差&标准差

图形显示

  • 分位数图——用于观察单变量数据分布

这里的单变量就是:单价
  • 分位数-分位数图或q-q图——观察一个分布到另一个分布是否有漂移
在统计学中,QQ图[1] (Q代表分位数Quantile)是一种通过画出分位数来比较两个概率分布的图形方法。首先选定区间长度,点(x,y)对应于第一个分布(x轴)的分位数和第二个分布(y轴)相同的分位数。因此画出的是一条含参数的曲线,参数为区间个数。

如果被比较的两个分布比较相似,则其QQ图近似地位于y = x上。如果两个分布线性相关,则QQ图上的点近似地落在一条直线上,但并不一定是y = x这条线。QQ图同样可以用来估计一个分布的位置参数。

QQ图可以比较概率分布的形状,从图形上显示两个分布的位置,尺度和偏度等性质是否相似或不同。它可以用来比较一组数据的经验分布和理论分布是否一致。[2]另外,QQ图也是一种比较两组数据背后的随机变量分布的非参数方法。一般来说,当比较两组样本时,QQ图是一种比直方图更加有效的方法,但是理解QQ图需要更多的背景知识。


  • 散点图与数据相关——两个数值变量之间看上去是否存在联系

————————————————————————————————————————————————————————————————————————————
数据可视化

  • 基于像素
  • 几何投影
  • 基于图符
  • 层次
  • 复杂对象的可视化
————————————————————————————————————————————————————————————————————————————
度量数据的相似性和相异性(临近度度量)



不同类别的数据,d(i,j)有不同的计算方法。

  • 标称属性


  • 二元属性





  • 数值属性——闵可夫斯基距离(Minkowski distance)、欧几里得距离、曼哈顿距离

  • 序数属性

得到:

  • 混合类型属性——基于test1、2、3,取平均
  • 相似性评估:余弦相似性(用于比较文档)、Tanimoto系数

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值