线性回归
假设坐标平面内有n点, ( x 1 , y 1 ) (x_1 ,y_1) (x1,y1), ( x 2 , y 2 ) (x_2 ,y_2) (x2,y2)等,记为 ( x n , y n ) (x_n ,y_n) (xn,yn) ,用一条直线进行这些点,希望最小化这些点到直线距离的平方。直线 y = m x + b y=mx+b y=mx+b,求出 m , b m , b m,b,使得点和直线y值的平方误差和最小
E r r o r 1 = y 1 − ( m x 1 + b ) Error_1 = y_1-(mx_1+b) Error1=y1−(mx1+b)
E r r o r 2 = y 2 − ( m x 2 + b ) Error_2 = y_2-(mx_2+b) Error2=y2−(mx2+b)
S E r r o r = ( y 1 − ( m x 1 + b ) ) 2 + ( y 2 − ( m x 2 + b ) ) 2 + … … + ( y n − ( m x n + b ) ) 2 S_{Error} =(y_1-(mx_1+b))^2+(y_2-(mx_2+b))^2+……+(y_n-(mx_n+b))^2 SError=(y1−(mx1+b))2+(y2−(mx2+b))2+……+(yn−(mxn+b))2
原式= y 1 2 − 2 y 1 ( m x 1 + b ) + ( m x 1 + b ) 2 + … … + y n 2 − 2 y n ( m x n + b ) + ( m x n + b ) 2 y^2_1-2y_1(mx_1+b)+(mx_1+b)^2+……+y^2_n-2y_n(mx_n+b)+(mx_n+b)^2 y12−2y1(mx1+b)+(mx1+b)2+……+yn2−2yn(mxn+b)+(mxn+b)2
原式= y 1 2 − 2 y 1 m x 1 − 2 y 1 b + m 2 x 1 2 + 2 m x 1 b + b 2 + … … + y n 2 − 2 y n m x n − 2 y n b + m 2 x n 2 + 2 m x n b + b 2 y^2_1-2y_1mx_1-2y_1b+m^2x^2_1+2mx_1b+b^2+……+y^2_n-2y_nmx_n-2y_nb+m^2x^2_n+2mx_nb+b^2 y12−2y1mx1−2y1b+m2x12+2mx1b+b2+……+yn2−2ynmxn−2ynb+m2xn2+2mxnb+b2 原式= ( y 1 2 + y 2 2 + … … + y n 2 ) − 2 m ( x 1 y 1 + … … + x n y n ) − 2 b ( y 1 + … … + y n ) + m 2 ( x 1 2 + … … + x n 2 ) + 2 m b ( x 1 + … … x n ) + n b 2 (y^2_1+y^2_2+……+y^2_n)-2m(x_1y_1+……+x_ny_n)-2b(y_1+……+y_n)+m^2(x^2_1+……+x^2_n)+2mb(x_1+……x_n)+nb^2 (y12+y22+……+yn2)−2m(x1y1+……+xnyn)−2b(y1+……+yn)+m2(x12+……+xn2)+2mb(x1+……xn)+nb2
计算累加项的均值,最小化原式,等价于最小化将累加项改写为均值后的式子
原式= n y 2 ‾ − 2 m n x y ‾ − 2 n b y ‾ + n m 2 x 2 ‾ + 2 m n b x ‾ + n b 2 n\overline{y^2}-2mn\overline{xy}-2nb\overline y + nm^2\overline{x^2}+2mnb\overline x +nb^2 ny2−2mnxy−2nby+nm2x2+2mnbx+nb2
最小化上式,求m、b分别对m和b求偏导(三维曲面上,最小值点在对m和b的斜率都等于0的位置上)
KaTeX parse error: Expected 'EOF', got '\and' at position 44: …{\partial m}=0 \̲a̲n̲d̲{\frac{\partial…
得到
m
=
(
y
‾
−
x
y
‾
x
‾
)
(
x
‾
)
(
x
‾
−
x
2
‾
x
‾
)
(
x
‾
)
=
x
‾
y
‾
−
x
y
‾
(
x
‾
)
2
−
x
2
‾
m=\frac{(\overline y -\frac{\overline {xy}}{\overline x})(\overline x)}{(\overline x - \frac{\overline {x^2}}{\overline x})(\overline x)}=\frac{\overline x \overline y - \overline{xy}}{(\overline x )^2-\overline {x^2}}
m=(x−xx2)(x)(y−xxy)(x)=(x)2−x2xy−xy
b = y ‾ − m x ‾ b=\overline y - m\overline x b=y−mx
决定系数 R 2 R^2 R2
y的总波动有多少可以被x的波动描述( R 2 R^2 R2)?总波动中有多少没有被线性回归(x波动)所描述?
y的总波动(方差时y波动的均值)
S
E
y
‾
=
∑
i
=
1
n
(
y
i
−
y
‾
)
2
SE_{\overline y}= \sum^n_{i=1} (y_i-\overline y)^2
SEy=i=1∑n(yi−y)2
S E l i n e S E y ‾ \frac{SE_{line}}{SE_{\overline y}} SEySEline
R 2 = 1 − S E l i n e S E y ‾ R^2 = 1-\frac{SE_{line}}{SE_{\overline y}} R2=1−SEySEline
如果决定系数接近1,说明直线拟合的很好,因为点到直线的平方误差很小
协方差和回归线
协方差:两随机变量离各自均值距离之积的期望值
C
o
v
(
X
,
Y
)
=
E
(
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
=
E
(
X
Y
)
−
E
(
X
)
E
(
Y
)
=
X
Y
‾
−
X
‾
Y
‾
Cov(X,Y)=E((X-E(X))(Y-E(Y))=E(XY)-E(X)E(Y)=\overline{XY}-\overline X \overline Y
Cov(X,Y)=E((X−E(X))(Y−E(Y))=E(XY)−E(X)E(Y)=XY−XY
卡方分布
χ 2 \chi^2 χ2 分布检验理论分布同观测结果的吻合度(一些随机变量的平方之和)
自由度:相互独立的随机变量的个数(n-1)、(r-1)(c-1)
皮尔逊 χ 2 \chi^2 χ2检验
列联表 χ 2 \chi^2 χ2检验
方差分析
SST:总平方和
思考:总波动程度有多少是组内波动引起的?
SSW:组内平方和(每组总平方和之和)
SSB:组间波动(组内均值和总均值之差的平方和)
总波动=组内波动+组间波动
F统计量的假设检验
确认差异是来源于组内(数据随机)还是组间
F
=
S
S
B
m
−
1
S
S
W
m
(
n
−
1
)
F=\frac{\frac{SSB}{m-1}}{\frac{SSW}{m(n-1)}}
F=m(n−1)SSWm−1SSB
相关性和因果性
演绎推理(事实到事实)和归纳推理(有假设、推广)