毕设学习之路（2020.01.05）

最新推荐文章于 2024-09-06 19:55:08 发布

Beaulo_Lee

最新推荐文章于 2024-09-06 19:55:08 发布

阅读量232

点赞数

文章标签：大数据

本文链接：https://blog.csdn.net/qq_40198152/article/details/103846342

版权

2019.12.30-2020.01.05

小结

本周学习了《统计学习导论》的第三章，完成实验及部分习题。

知识梳理

区别于上周所学习的内容，第三章详细介绍了线性回归这一方法，概念变得更多，我自己看书的时候公式太多导致感觉有些混乱，在这里正好重新梳理一下。

线性回归是一种有效并得到广泛应用的统计学习方法，许多方法都可以看做是线性回归的推广和扩展。

首先是简单线性回归，简单线性回归是一种非常简单的根据单一预测变量X预测定量响应变量Y的方法。从数学上可以记为：Y≈β0+β₁X，类似于一次方程。想要预测响应变量，则需要求β0和β₁，也就是模型的系数或参数，书中采用最小二乘法选择β0和β₁，这样使得RSS最小（RSS指预测的响应变量和实际值之间的差值）。
通过计算求出的系数与真实的系数不一定是相同的，为了得到精确的预测值，则需要对系数估计值的准确性进行评估，用ε定义均值为0的随机误差项，则X与Y间的关系可表示为Y=f(X)+ε，假设f可用线性函数近似，则Y=β0+β₁X+ε，这个式子定义了总体回归直线，是对X和Y之间真实关系的最佳线性近似。在实际中，总体回归直线是无法观测的，而最小二乘线是可以被计算的。两者间具有微小的差异，因为样本均值和总体均值的含义是不同的。线性回归和随机变量的均值估计之间的类比是一个恰当的基于偏差概念的类比。也就是说，以样本均值估计总体均值，是无偏的，是平均的，但就一组特定的观测值而言，可能高估也可能低估。那么偏差会有多远？书中以标准误差SE(u¯)²=σ²/n表示样本均值偏离总体均值的实际值的平均量，σ是变量Y的每个实现值yi的标准差。同样可以求出β0和β₁的标准误差SE(β0¯)²，SE(β₁¯)²。对σ²的估计称为残差标准误RSE=√(RSS/(n-2))。标准误差可用于计算置信区间：β¯±2·SE(β¯)。标准误差也可以用来对系数进行假设检验，如零假设和备择假设。
评价模型的准确性，通常使用残差标准误RSE和R²统计量。

然后是多元线性回归，可以看作类似多元一次方程，同样使用最小二乘法估计系数，使残差平分和RSS最小。
在进行多元线性回归时，其中有一些重要问题如：1. 响应变量和预测变量之间是否有关系？使用假设检验，通过计算F统计量来判断。2. 选定重要变量：向前选择、向后选择、混合选择。3. 模型拟合：以RSE和R²作为指标。4. 预测。

其他注意事项。如定性预测变量，回归方程则可以解释为两种或多种取值的结果。以及线性模型的扩展，如去除可加性假设和非线性关系。拟合数据集时可能会出现很多问题，常见的有：1. 非线性的响应-预测关系。2. 误差项自相关。3. 误差项方差非恒定。4. 离群点。5. 高杠杆点。6. 共线性。

线性回归于K最近邻法的比较。K近邻法也可用于回归。当真实关系是非线性时，KNN的效果比线性回归更好，反之当真实关系为线性时，线性回归效果更好。此外，变量数目的不同，两者优劣也不同。