统计学是如何总结数据特点的
分布(离散型、连续型)
描述、相关
单变量:描述
集中趋势、分散趋势
双变量:相关
共同变化趋势(协方差、相关系数)
可视化探索
数据分布
分布就是概率
可能结果(取值)有哪些
每个结果或者某个范围内的概率是多少?
可视化展现
概率密度图
累积分布图
常见分布
分类变量:二项分布、泊松分布
数值变量:均匀分布、正态分布、指数分布
得到分布是研究的最高境界,说着容易做着难。很多时候是不能得到分部的,这时就有了另一种抓取数字特点的方法–数字特征
描述————集中趋势
集中趋势是一组数据向某一中心值靠拢的程度,反映了一组数据的中心点的位置所在
分类变量
众数
数值变量
均值(切尾均值、算数平均数、加权平均数、几何平均数)
均值的无用
单峰分布
极值的影响
不能简单求和
中位数(左偏、右偏)
分位数
中位数、分位数比均值更好
历史因性能原因(均值O(n),分位数O(logn))
描述————离散趋势
集中趋势反应的是变量值向其中心值集中的程度。变量间的差异状况如何呢?
离散趋势反应的是各变量值远离其中心值的程度
集中趋势的统计量是从一组数据中选择代表,但是这个代表的代表能力取决于数据的离散程度。数据越离散,代表能力就越弱;数据越集中,代表能力就越强。
统计量
极差
方差、标准差
z分数
经验法则
切比雪夫定理
相关
协方差
cov
协方差取值范围
相关系数
cor
对协方差的单位化,取值范围[-1,+1]
单变量的描述
数值型变量
mean 均值、weighted.mean 加权平均数,median 中位数、quantile 分位数
var 方差、sd 标准差、min、max
summary 、fivenum
sum、length、prod
分类型变量
table
prop.table
分组统计
split、sapply、lapply、tapply
aggregate
by
双变量的相关
cov
cor
use:complete.obs、pairwise.complete.obs
可视化
单变量
散点图plot
箱线图boxplot
柱状图barplot
直方图hist、密度图
小提琴图(vioplot::vioplot)
QQ图(qqnorm、qqline、car::qq.plot)
双变量
散点图 plot、jitter、smoothScatter、sunflowerplot
散点图集 pairs、plot、car::scatterplotMatrix
相关性 corrgram::corrgram
分组:
lattice包
xyplot 散点图
bwplot 箱线图
histogram 直方图
densityplot 密度图
代码示例:
> str(airquality)
'data.frame': 153 obs. of 6 variables:
$ Ozone : int 41 36 12 18 N