数学建模期末复习,撰写博客做总结之用,主要侧重于算例的模型建立与部分代码的实现,其中不足之处望读者多多指正。
文章目录
前戏(来电数理统计基础知识)
统计量
求概率分布函数方法论
统计中常用的概率分布
参数估计
假设检验
高潮(matlab统计工具箱使用)
入(数据导入)
势(常用统计量)
践(常用的概率分布函数)
尽(常用的参数估计与假设检验)
后语(引例)
净(例子1)
伏(例2)
参考
前戏(来电数理统计基础知识)
统计量
1、表示位置的统计量
平均值:X ˉ = 1 n ∑ i = 1 n X i \bar{X}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{X}_{i}}}Xˉ=n1i=1∑nXi;
中位数:将数据由小到大排序后位于中间位置的那个数值.
2、 表示变异程度的统计量:
标椎差:s = [ 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 ] 1 2 s = {[\frac{1}{{n - 1}}\sum\limits_{i = 1}^n {{{({X_i} - \bar X)}^2}} ]^{\frac{1}{2}}}s=[n−11i=1∑n(Xi−Xˉ)2]21
方差:标椎差的平方
极差:样本的两最值的差。
3、表示分布形状的统计量
偏度:g 1 = 1 s 3 ∑ i = 1 n ( X i − X ˉ ) 3 {g_1} = \frac{1}{{{s^3}}}\sum\limits_{i = 1}^n {{{({X_i} - \bar X)}^3}}g1=s31i=1∑n(Xi−Xˉ)3
峰度:g 2 = 1 s 4 ∑ i = 1 n ( X i − X ˉ ) 4 {g_2} = \frac{1}{{{s^4}}}\sum\limits_{i = 1}^n {{{({X_i} - \bar X)}^4}}g2=s41i=1∑n(Xi−Xˉ)4
说明:
偏度反映分布的对称性,g1 >0称为右偏态,此时数据位于均值右边的比位于左边的多;g1 <0称为左偏态,情况相反;而g1接近0则可认为分布是对称的.
峰度是分布形状的另一种度量,正态分布的峰度为3,若g2比3大很多,表示分布比较“扁平”,说明样本中含有较多远离均值的数据,因而峰度可用作衡量偏离正态分布的尺度之一.
4、矩
k阶原点矩:V k = 1 n ∑ i = 1 n X i k {V_k} = \frac{1}{n}\sum\limits_{i = 1}^n {X_i^k}Vk=n1i=1∑nXik
k阶中心矩:U k = 1 n ∑ i = 1 n ( X i − X ˉ ) k {U_k} = \frac{1}{n}\sum\limits_{i = 1}^n {{{({X_i} - \bar X)}^k}}Uk=n1i=1∑n(Xi−Xˉ)k
求概率分布函数方法论
1、整理资料:把样本值x1,x2,…,xn进行分组,先将它们依大小次序排列,得x 1 ∗ ≤ x 2 ∗ ≤ ⋯ ≤ x n ∗ x_1^* \le x_2^* \le \cdots \le x_n^*x1∗≤x2∗≤⋯≤xn∗,随机落入等分点;
2、求出出现在区间的频率:( x i , x i + 1 ] (x_i,x_{i + 1}](xi,xi+1]为n i n_ini则频率f i = n i n f_i=\frac{n_i}{n}fi=nni
3、做相应的频率直方图。
统计中常用的概率分布
1、正态分布:N ( μ , σ 2 ) N\left(\mu, \sigma^{2}\right)N(μ,σ2)
密度函数:p ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 : p(x)=\frac{1}{\sqrt{2 \pi} \sigma} \mathrm{e}^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}:p(x)=2πσ1e−2σ2(x−μ)2:
分布函数:F ( x ) = 1 2 π σ ∫ − ∞ x e − ( y − μ ) 2 2 σ 2 d y F(x)=\frac{1}{\sqrt{2 \pi} \sigma} \int_{-\infty}^{x} e^{-\frac{(y-\mu)^{2}}{2 \sigma^{2}}} d yF(x)=2πσ1∫−∞xe−2σ2(y−μ)2dy
μ , 为 期 望 σ 2 为 均 值 , − ∞ < x < + ∞ \mu,为期望\sigma^{2}为均值, \quad-\inftyμ,为期望σ2为均值,−∞
标椎正态分布:N ( 0 , 1 ) N(0,1)N(0,1)
密度函数:φ ( x ) = 1 2 π e − x 2 2 \varphi(x)=\frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-\frac{x^{2}}{2}}φ(x)=2π1e−2x2
分布函数:Φ ( x ) = 1 2 π ∫ − ∞ x e − y 2 2 d y \Phi(x)=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{x} \mathrm{e}^{-\frac{y^{2}}{2}} \mathrm{d} yΦ(x)=2π1∫−∞xe−2y2dy
2、χ 2 {\chi ^2}χ2分布
若随机变量X1,X2,…,Xn相互独立,都服从标准正态分布N(0,1),则随机变量:
Y = X 1 2 + X 2 2 + ⋯ + X n 2 Y=X_1^2 + X_2^2 + \cdots + X_n^2Y=X12+X22+⋯+Xn2服从自由度为n的χ 2 {\chi ^2}χ2分布,记做Y~χ 2 {\chi ^2}χ2(n)
3、t分布
若XN(1,0)与Yχ 2 {\chi ^2}χ2(n)相互独立,则随机变量:T = X Y n T = \frac{X}{{\sqrt {\frac{Y}{n}} }}T=nYX服从自由度为n的t分布记做T~t(n)
4、F分布
如果X~χ 2 {\chi ^2}χ2(n 1 n_1n1),Y~χ 2 {\chi ^2}χ2(n 2 n_2n2),且两者相互独立,则F = X n 1 Y n 2 F = \frac{{\frac{X}{{{n_1}}}}}{{\frac{Y}{{{n_2}}}}}F=n2Yn1X服从自由度为(n 1 , n 2 n_1,n_2n1,n2)的F分布,记作F~F(n 1 , n 2 n_1,n_2n1,n2)
接下的概念对菜鸡笔者有些复杂,偷懒不做展开,有兴趣的读者自行补充
参数估计
点估计
区间估计
1、点估计的求法
矩估计法
极大似然估计法
2、区间估计的求法
求数学期望的置信区间
方差的区间估计
假设检验
假设检验的一般解题步骤为:
根据实际问题提出原假设H0与备择假设H1,即说明需要检验的假设的具体内容;
选择适当的统计量,并在原假设H0成立的条件下确定该统计量的分布;
按问题的具体要求,选取适当的显著性水平 ,并根据统计量的分布查表,确定对应于 的临界值.一般 取0.05,0.01或0.10;
根据样本观测值计算统计量的观测值,并与临界值进行比较,从而在检验水平 下对拒绝或接受原假设H0作出判断.
高潮(matlab统计工具箱使用)
入(数据导入)
有两种,导入向量将向量合成矩阵,或者直接导入矩阵数据:
t=78:87;
x=[23.8,27.6,31.6,32.4,33.7,34.9,...
43.2,52.8,63.8,73.4];
y=[41.4,51.8,61.7,67.9,68.7,77.5,...
95.9,137.4,155.0,175.0];
save data t x y;
load data;
%矩阵输入
clear
data1=[78,79,80,81,82,83,84,85,86,87;...
23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;...
41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]
t=data1(1,:)
x=data1(2,:)
y=data1(3,:)
势(常用统计量)
%输出基本的统计量
%均值
mean(x)
%中位数
median(x)
%标椎差
std(x)
%方差
var(x)
%偏度
skewness(x)
%峰度
kurtosis(x
践(常用的概率分布函数)
%常见的概率分布函数
%正态分布:norm
%指数分布:exp
%均匀分布:unif
%泊松分布:poiss
%两项分布: bino
%几何分布:geo
%超几何分布:hyge
%离散均匀分布:unid
%β 分布:beta
%γ分布:gam
%韦布尔分布:weib
%卡方分布:chi2
%t分布:t
%F分布:F
%分部的相关概率函数
%概率密度:pdf 概率分布:cdf
%逆概率分布:inv 均值与方差:stat
%随机数生成:rnd
%关于正态分布的概率密度函数可以表示为
p=normpdf(x,mu,sigma)
尽(常用的参数估计与假设检验)
参数估计(以正态为例)
%检验
[muhat,sigmahat,muci,sigmaci]=normfit(X,alpha)
%参数估计
%假设检验,已知方差Z检验均值
[h,sig,ci] = ztest(x,m,sigma,alpha,tail)
%假设检验,未知方差t检验均值
[h,sig,ci] = ttest(x,m,sigma,alpha,tail)
%两总体问题假设检验使用t检验
[h,sig,ci] = ttest2(x,y,alpha,tail)
非参数检验
以正态分布为例
%非参数检验
%绘制频率直方图
hist(x,10)
%检验正态分布
h = normplot(x)
%检验Weibull分布
h = weibplot(x)
%参数估计(点估计与区间估计)
[muhat,sigmahat,muci,sigmaci]=normfit(x)
tail的缺省值为 0, alpha的缺省值为 0.05
后语(引例)
净(例子1)
某校60名学生的一次考试成绩如下:
93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55
1)计算均值、标准差、极差、偏度、峰度,画出直方图;
2)检验分布的正态性;
3)若检验符合正态分布,估计正态分布的参数并检验参数.
程序求解
%作业题1
x=[93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 ...
88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 ...
75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 ...
76 90 89 71 66 86 73 80 94 79 78 77 63 53 55
];
%计算基本的统计量
%均值
mean(x)
%中位数
median(x)
%标椎差
std(x)
%方差
var(x)
%偏度
skewness(x)
%峰度
kurtosis(x)
%绘制基本的直方图
hist(x,10)
%检验正态性
normplot(x)
%参数估计
[muhat,sigmahat,muci,sigmaci]=normfit(x)
运行图例
直方图
正态性检验:
参数估计:
muhat =80.1000
sigmahat =9.7106
muci =[77.5915,82.6085]
sigmaci =[8.2310,11.8436]
即:方差为9.7106,期望为80.1000 估计置信区间同上
伏(例2)
据说某地汽油的价格是每加仑115美分,为了验证这种说法,一位学者开车随机选择了一些加油站,得到某年1月和2月的数据如下:
1月:119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118
2月:118 119 115 122 118 121 120 122 128 116 120 123 121 119 117 119 128 126 118 125
1)分别用两个月的数据验证这种说法的可靠性;
2)分别给出1月和2月汽油价格的置信区间;
3)给出1月和2月汽油价格差的置信区间.
*解题代码
%作业题2
x=[119 117 115 116 112 121 115 122 116 118 ...
109 112 119 112 117 113 114 109 109 118
];
y=[118 119 115 122 118 121 120 122 128 116 ...
120 123 121 119 117 119 128 126 118 125];
[h,sig,ci] = ttest(x,115)
[h,sig,ci] = ttest(y ,115)
[h,sig,ci] = ttest2(x,y)
运行结果
h = 0
sig =0.8642
ci =113.3388 116.9612
h =1
sig =1.3241e-06
ci =119.0129 122.4871
h =1
sig =3.6952e-05
ci =-8.0273 -3.1727
说法在1月可靠2月不可靠,1月的价格区间为[113.3388 116.9612];二月价格区间为[119.0129 122.4871];价格差为(1-2)-8.0273 -3.1727
参考
数模课件
晋江文学