一、度量数据的中心趋势
各种方法:
1、分布式度量 (distributive measure)
均值 (average)
截断均值 (trimmed mean):去掉高、低极端值后的均值。
加权均值 (weighted average)
2、整体度量 (holistic measure)
中位数:排序后,中间的数据
众数:出现次数最多的数据
中列数:(max + min)/2
二、度量数据的离散程度
1、极差、四分位数、离群点和盒图
极差 (range):max - min
四分位数 (quartile):第一个四分位数记做Q1,是第25个百分位数;第三个四分位数记做Q3,是第75个百分位数。
中间四分位数极差 (IQR):Q3 - Q1
一个识别可疑的离群点的常用经验:挑出落在至少高于第三个四分位数或低于第一个四分位数1.5 * IQR处的值。
分布的五数概括(five-numbersummary)由中位数,四分位数Q1和Q3,min和max组成。
盒图 (boxplot)体现了五数概括:在典型情况下,盒的端点在四分位数上使得盒的长度等于IQR;中位数用盒内的线标记;盒外的两条线(称作胡须)延伸到min和max值。
2、方差和标准差
标准差是方差的平方根。
3、图形显示
条形图
直方图
分位数图
散布图
局部回归曲线
q - q图
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/13496062/viewspace-624354/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/13496062/viewspace-624354/