1 总体和样本的方差
总体的方差
样本(总体的一个子集)的方差 (这里的N-1是为了无偏估计)
2 离散系数/变异系数 coefficient of variation
标准差和平均值之比
一般来说,越大表示越分散
3 数据的图示
3.1 箱式图 box-and-whisker plot
3.1.1 箱式图的局限性
以下两个直方图(histogram)所表示的分布,他们有一样的箱式图 (一样的最大最小值、一样的四分之一分位【Q1】、四分之三分位【Q3】、中位数),但他们是不一样的分布
——>就如上图所展示的,此时用直方图histogram更合适
3.2 QQ图 quantile-quantile plot
可以来表示数据是一个什么样的分布
我们令n表示样本数据个数,i表示当前数据的排序(最小的数排序为1),于是我们根据数据绘制如下图:
根据QQ图逼近的图像,可以判断数据数据哪一种分布
4 切比雪夫法则
对于所有的数据,已知其均值为μ标准差为s,那么对于任何大于1的k,[μ-ks,μ+ks]包含了至少1-1/k^2 比例的数据
——>±2标准差中有至少75%的数据
5 概率密度函数几个概念:
离散数据的概率密度:prob mass function,pmf
离散数据的累积概率密度:cumulative distribution function,cdf
连续数据的概率密度:prob density function,pdf
连续数据的累积概率密度:cumulative distribution function,cdf
6 随机变量的均值和方差
均值: