俗话说好记性不如烂笔头,书总是读了忘,忘了只好再读。本次就好好记下读书笔记,经后再次查阅就不需再全部重读从砖一厚的书了
数据通常有各种属性,其本身的属性决定可对其进行的操作。传统的关系型数据库就是一个对分析对象的数据-属性的描述集。
属性 不同学科中有不同叫法。数据库/数据挖掘:属性;数据仓库:维;机器学习:特征;统计:变量。
特征向量:(又称属性向量)用来描述一个给定对象的一组属性
属性的分类
标称属性(nominal atribute事物名称)不具有序数意义,可以为枚举类型,可用于分类。操作方法可为中心趋势度量,如众数
二元属性(binary attribute) 只有两个状态的标称属性:0或1,又叫布尔属性
序数(ordinal)操作:可用于等级评定,可取众数,中位数,均值无意义
数值(numeric) 区间标度(interval-scaled)比率标度(ratio-scaled)
离散/连续
1. 数据的基本概念
1.1 数据的描述方法数据通常有各种属性,其本身的属性决定可对其进行的操作。传统的关系型数据库就是一个对分析对象的数据-属性的描述集。
属性 不同学科中有不同叫法。数据库/数据挖掘:属性;数据仓库:维;机器学习:特征;统计:变量。
特征向量:(又称属性向量)用来描述一个给定对象的一组属性
属性的分类
标称属性(nominal atribute事物名称)不具有序数意义,可以为枚举类型,可用于分类。操作方法可为中心趋势度量,如众数
二元属性(binary attribute) 只有两个状态的标称属性:0或1,又叫布尔属性
序数(ordinal)操作:可用于等级评定,可取众数,中位数,均值无意义
数值(numeric) 区间标度(interval-scaled)比率标度(ratio-scaled)
离散/连续
1.2 数据的基本统计描述
为了把握数据全貌,可用基本统计来识别数据属性1.2.1 中心趋势度量: 均值,中位数,众数,中列数
算术平均(mean) 加权平均 截尾均值(trimmed mean)
中位数(median)度量倾斜,可用于数值数据,推广至度数数据
众数(mode) 单峰众数经验估计法 : mean - mode 约 = 3* (mean - median)
中列数(midrage) 1/2 (max - min)实际中数据多为不对称,可能有倾斜。正倾斜为众数出现在小于中位数的区间(就是坐标轴上峰往左偏),负倾斜相反
1.2.2 散布:极差,四分位数,四分位数极差,五数概括,盒图,方差,标准差
数据散布或发散情况的度量
极差 max - min
1.2.3 数据可视化