一.度量数据的中心趋势(均值mean、中位数median、众数mode、中列数midrange)
在完全对称的数据分布单峰曲线mean=media=mode
1.均值mean
对应于关系型数据库内部的聚集函数avg(),avg()=sum()/count()是一种代数度量sum()和count()是分布式度量(将数据划分成较小数据集后度量)
加权平均
2.中位数media(由于计算中位数需要进行整体度量,开销太大,计算近似中位数算法)假定把数据集划分成区间,并指导每个区间的频率(个数),令包含中位数频率的区间为中位数区间有
L1为中位数区间的下界,N为整个数据集的个数,为中位数以前的频率的和为中位数区间的频率 为在中位数区间的宽度
3.众数mode=3*media-2*mean(对于适度倾斜的单峰曲线)
4.中列数midrange=max-min
二.度量数据的离散趋势(极差range,五数概括five-number summary,中间四分位数极差interquartile range,IQR,方差variance)
1.极差range=max-min
2.五数概括【minimum,Q1,media,Q3,maximum】
3.中间四分位数极差IQR=Q3-Q1
4.方差和标准差
三.描述数据汇总的图形显示
1.直方图(条形图)
2.分位数图quantile plot(显示所有数据允许用户评估总的情况和不寻常出现)
Xi(i=1......N)是安递增排列的数据
令 Fi=(i-0.5)/N
画(Xi,Fi)图像
3.分位数-分位数图/q-q图
Xi(i=1......N)是安递增排列的数据
Yi(i=1......N)是安递增排列的数据
令 Fi=(i-0.5)/N
画(Xi,Yi)图像
4.散布图(scatter plot确定俩个数据属性看上去是否有联系、模式或趋势)散布图矩阵 解决n个属性问题
画(x,y)5.loess曲线 在散布图中添加一条光滑曲线(需要设置俩参数--光滑参数阿拉法,被回归拟合的多项式的次数辣么大,阿拉法在0.25到1之间,辣么大在1或2,阿拉法越大,曲线越光滑)