统计学基础_task4

线性回归

假设坐标平面内有n点, ( x 1 , y 1 ) (x_1 ,y_1) (x1,y1), ( x 2 , y 2 ) (x_2 ,y_2) (x2,y2)等,记为 ( x n , y n ) (x_n ,y_n) (xn,yn) ,用一条直线进行这些点,希望最小化这些点到直线距离的平方。直线 y = m x + b y=mx+b y=mx+b,求出 m , b m , b m,b,使得点和直线y值的平方误差和最小

E r r o r 1 = y 1 − ( m x 1 + b ) Error_1 = y_1-(mx_1+b) Error1=y1(mx1+b)

E r r o r 2 = y 2 − ( m x 2 + b ) Error_2 = y_2-(mx_2+b) Error2=y2(mx2+b)

S E r r o r = ( y 1 − ( m x 1 + b ) ) 2 + ( y 2 − ( m x 2 + b ) ) 2 + … … + ( y n − ( m x n + b ) ) 2 S_{Error} =(y_1-(mx_1+b))^2+(y_2-(mx_2+b))^2+……+(y_n-(mx_n+b))^2 SError=(y1(mx1+b))2+(y2(mx2+b))2++(yn(mxn+b))2

原式= y 1 2 − 2 y 1 ( m x 1 + b ) + ( m x 1 + b ) 2 + … … + y n 2 − 2 y n ( m x n + b ) + ( m x n + b ) 2 y^2_1-2y_1(mx_1+b)+(mx_1+b)^2+……+y^2_n-2y_n(mx_n+b)+(mx_n+b)^2 y122y1(mx1+b)+(mx1+b)2++yn22yn(mxn+b)+(mxn+b)2

原式= y 1 2 − 2 y 1 m x 1 − 2 y 1 b + m 2 x 1 2 + 2 m x 1 b + b 2 + … … + y n 2 − 2 y n m x n − 2 y n b + m 2 x n 2 + 2 m x n b + b 2 y^2_1-2y_1mx_1-2y_1b+m^2x^2_1+2mx_1b+b^2+……+y^2_n-2y_nmx_n-2y_nb+m^2x^2_n+2mx_nb+b^2 y122y1mx12y1b+m2x12+2mx1b+b2++yn22ynmxn2ynb+m2xn2+2mxnb+b2 原式= ( y 1 2 + y 2 2 + … … + y n 2 ) − 2 m ( x 1 y 1 + … … + x n y n ) − 2 b ( y 1 + … … + y n ) + m 2 ( x 1 2 + … … + x n 2 ) + 2 m b ( x 1 + … … x n ) + n b 2 (y^2_1+y^2_2+……+y^2_n)-2m(x_1y_1+……+x_ny_n)-2b(y_1+……+y_n)+m^2(x^2_1+……+x^2_n)+2mb(x_1+……x_n)+nb^2 (y12+y22++yn2)2m(x1y1++xnyn)2b(y1++yn)+m2(x12++xn2)+2mb(x1+xn)+nb2

计算累加项的均值,最小化原式,等价于最小化将累加项改写为均值后的式子

原式= n y 2 ‾ − 2 m n x y ‾ − 2 n b y ‾ + n m 2 x 2 ‾ + 2 m n b x ‾ + n b 2 n\overline{y^2}-2mn\overline{xy}-2nb\overline y + nm^2\overline{x^2}+2mnb\overline x +nb^2 ny22mnxy2nby+nm2x2+2mnbx+nb2

最小化上式,求m、b分别对m和b求偏导(三维曲面上,最小值点在对m和b的斜率都等于0的位置上)
KaTeX parse error: Expected 'EOF', got '\and' at position 44: …{\partial m}=0 \̲a̲n̲d̲{\frac{\partial…
得到
m = ( y ‾ − x y ‾ x ‾ ) ( x ‾ ) ( x ‾ − x 2 ‾ x ‾ ) ( x ‾ ) = x ‾ y ‾ − x y ‾ ( x ‾ ) 2 − x 2 ‾ m=\frac{(\overline y -\frac{\overline {xy}}{\overline x})(\overline x)}{(\overline x - \frac{\overline {x^2}}{\overline x})(\overline x)}=\frac{\overline x \overline y - \overline{xy}}{(\overline x )^2-\overline {x^2}} m=(xxx2)(x)(yxxy)(x)=(x)2x2xyxy

b = y ‾ − m x ‾ b=\overline y - m\overline x b=ymx

决定系数 R 2 R^2 R2

y的总波动有多少可以被x的波动描述( R 2 R^2 R2)?总波动中有多少没有被线性回归(x波动)所描述?

y的总波动(方差时y波动的均值)
S E y ‾ = ∑ i = 1 n ( y i − y ‾ ) 2 SE_{\overline y}= \sum^n_{i=1} (y_i-\overline y)^2 SEy=i=1n(yiy)2

S E l i n e S E y ‾ \frac{SE_{line}}{SE_{\overline y}} SEySEline

R 2 = 1 − S E l i n e S E y ‾ R^2 = 1-\frac{SE_{line}}{SE_{\overline y}} R2=1SEySEline

如果决定系数接近1,说明直线拟合的很好,因为点到直线的平方误差很小

协方差和回归线

协方差:两随机变量离各自均值距离之积的期望值
C o v ( X , Y ) = E ( ( X − E ( X ) ) ( Y − E ( Y ) ) = E ( X Y ) − E ( X ) E ( Y ) = X Y ‾ − X ‾ Y ‾ Cov(X,Y)=E((X-E(X))(Y-E(Y))=E(XY)-E(X)E(Y)=\overline{XY}-\overline X \overline Y Cov(X,Y)=E((XE(X))(YE(Y))=E(XY)E(X)E(Y)=XYXY

卡方分布

χ 2 \chi^2 χ2 分布检验理论分布同观测结果的吻合度(一些随机变量的平方之和)

自由度:相互独立的随机变量的个数(n-1)、(r-1)(c-1)

皮尔逊 χ 2 \chi^2 χ2检验

列联表 χ 2 \chi^2 χ2检验

方差分析

SST:总平方和

思考:总波动程度有多少是组内波动引起的?

SSW:组内平方和(每组总平方和之和)

SSB:组间波动(组内均值和总均值之差的平方和)

总波动=组内波动+组间波动

F统计量的假设检验

确认差异是来源于组内(数据随机)还是组间
F = S S B m − 1 S S W m ( n − 1 ) F=\frac{\frac{SSB}{m-1}}{\frac{SSW}{m(n-1)}} F=m(n1)SSWm1SSB
相关性和因果性

演绎推理(事实到事实)和归纳推理(有假设、推广)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值