3.1鸢尾花数据集
这个数据集包含150种鸢尾花信息,每50种取自三个鸢尾花种之一:Setosa、Versicolour、Virginica。
属性描述:
- 萼片长度(cm)
- 萼片宽度(cm)
- 花瓣长度(cm)
- 花瓣宽度(cm)
- 类(S、Ve、Vi)
3.2汇总统计(Summary statistics)
汇总统计指的是用单个数或数的小集合捕获很大的值集的各种特征
3.2.1频率和众数
给定一个在 { v 1 , ⋯ , v i , ⋯ , v k } {\{v_1,\cdots,v_i,\cdots,v_k\}} {
v1,⋯,vi,⋯,vk}上取值的分类属性 x x x和m个对象单位集合,值 v i v_i vi的频率定义为:
f r e n q u e n c y ( v i ) = 具 有 属 性 值 v i 的 对 象 数 m frenquency(v_i)=\frac{具有属性值v_i的对象数}{m} frenquency(vi)=m具有属性值vi的对象数
值得一提的是,如果使用唯一的值表示遗漏值,则该值常常表示为众数
3.2.2百分位数
对于有序数据,考虑百分位数(percentile)更有意义。具体的定义为:
给定一个有序的或连续的属性 x x x和0与100之间的数 p p p,第 p p p个百分位数 x p x_p xp是一个 x x x值,使得 x x x的 p % p\% p%的观测值小于