笔记中的某些代码和图片来自郭彦甫老师的视频和课件
目录:
一:叙述统计
1.1 central tendency集中趋势
- mean:平均数
- median:中位数
- mode:众数
- prcitile:percentiles of a data set
1.2 quartile四分点
- prcitile:percentiles of a data set
1.3 variation变化
1.3.1 离散的相关函数
-
range :范围range(X)或者y = range(X,dim)
-
interquartile range:部分之间的距离
-
max
-
min
-
std(A):返回 A 沿大小不等于 1 的第一个数组维度的元素的标准差:
如果 A 是观测值的矢量,则标准差为标量。
如果 A 是一个列为随机变量且行为观测值的矩阵,则 S 是一个包含与每列对应的标准差的行矢量。
如果 A 是一个多维数组,则 std(A) 会沿大小不等于 1的第一个数组维度计算,并将这些元素视为矢量。此维度的大小将变为 1,而所有其他维度的大小保持不变。
默认情况下,标准差按 N-1 实现标准化,其中 N是观测值数量。 -
var(A):返回A的方差
1.3.2 画图
若是:只知道x向量,不知道频率,也可以直接用hist(x),直接可以根据频率画出来
- boxplot()
栗子:
load stockreturns;
boxplot(stocks)
- skewness( )
y=skewness(x)
y =
-0.1231 0.0512 0.4882
- kurtosis
二:推论统计
- 假设估计
- [h,p] = ttest2(___)
- [h,p] = ttest(___)
T检验,比较的是均值
以上两个函数都是比较x,y是否来自同一分布,h=0接受假设,h=1拒绝假设
默认条件下α=0.05,置信水平为1-α
p值越小,原假设越不可靠
If x and y are specified as vectors, they do not need to be the same length.
- 常用的假设检验方法
1 ztest():Z检验是检验standard diviation标准差,h=0表示X与Y的总体差别不显著h=1表示X与Y的总体差别显著
2 ranksum(Wilcoxon秩和检验)是用来量化等中位数的测试,通过中位数测试两个独立样本是否来自同一分布
3 signrank就是Wilcoxon配对符号秩检验
- p = signrank(X,Y,alpha) % X、Y为两个总体的样本,长度必须相同,alpha为显著性水平,P两个样本X和Y的中位数相等的概率,p接近于0则可对原假设质疑。
- [p,h] = signrank(X,Y,alpha) % h为检验结果:h=0表示X与Y的中位数之差不显著,h=1表示X与Y的中位数之差显著。