数据挖掘及应用--课程笔记(二)认识数据

一、数据与属性

属性:数据的字段/维度,说明数据内容含义。

数据属性:(1)属性说明(2)取值说明(3)单位量纲

属性分类:(1)标称属性(2)二元属性(3)序数属性(4)数值属性

1. 标称属性

  • 数值计算没有意义,如01表示汉族,02表示满族,03表示回族,相加没有意义。

2. 二元属性

  • 对称的二元属性:两个状态有相同价值,相同权重。
  • 不对称的二元属性:两个状态的重要性不同,如HIV阳性和HIV阴性,阴性数量远远小于阳性,出现概率不一样。

3. 序数属性

  • 属性之间有顺序关系。如,讲师、副教授、教授。
  • 可以比较,但不能表达差异大小。例如,教授-副教授的差与副教授-讲师的差,很难比较。本科-高中,高中-初中,不知道差异大小。
  • 可以用于连续数值的离散化。

上述三种属性都是定性,不是定量。

4. 数值属性

  • 定量的,可以算
  • 有些时候不能直接算,要做一些处理之后再算。例如,月入8000和月入2000的差别,如果直接除法则是4倍。如果(8000-1500)/(2000-1500)则是另外一种情况。

二、属性度量

  • 数据矩阵 :也叫二模矩阵。
  • 相异度矩阵:也叫单模矩阵。存储实体间的差异,对角线是自己与自己的差异,为0。
  • 相似性与相异度计算

1. 属性拆分

例如:身份证可以拆分成:省份、城市、生日等,进一步可以推断出是南方人还是北方人、星座是什么等。

2. 区间标度变量

课件PPT中有大量细节算法思路,此处不赘述。

三、基本统计描述

  • 总量描述
  • 中心趋势描述

四、数据可视化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值