Datawhale第5期初级算法梳理（1）-CSDN博客

本文链接：https://blog.csdn.net/u013327188/article/details/88026754

任务一：线性回归算法梳理

1. 机器学习的一些概念

2. 线性回归的原理

3. 线性回归损失函数、代价函数、目标函数

4. 优化方法(梯度下降法、牛顿法、拟牛顿法等)

5、线性回归的评估指标

6、sklearn参数详解

1. 机器学习的一些概念

根据训练数据是否拥有标记信息，学习任务可以大致分为两大类：“监督学习”（supervised learning）和“无监督学习”（unsupervised learning），分类和回归是前者的代表，聚类是后者的代表。

有监督学习：训练数据有标记信息的学习。

无监督学习：训练数据没有标记信息的学习。

泛化能力：学得模型适用于新样本的能力，称为“泛化”能力，具有泛化能力的模型能很好地适用于整个样本空间。

过拟合（overfitting）：当学习器把训练样本学得“太好”了的时候，很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质性质，这样就会导致泛化性能下降。这种现象在机器学习中称为“过拟合”。

欠拟合（underfitting）：与“过拟合”相对的是“欠拟合”，指的是对训练样本的一般性质尚未学好。

欠拟合比较容易克服，例如在决策树学习中扩展分支；在神经网络学习中增加训练次数。

过拟合无法彻底避免，只能“缓解”，或者减小风险。

交叉验证：常用的模型选择方法，在许多实际应用中数据不充足，为了选择好的模型，可以采用交叉验证方法。基本思想是重复地使用数据，把给定的数据进行切分，将切分的数据集组合为训练集与测试集，在此基础上反复地进行训练、测试以及模型选择。

2. 线性回归的原理

给定数据集 $D=\left \{ (x_1,y_1),(x_2,y_2),...,(x_m,y_m) \right \}$ ，其中 $x_i=(x_i_1;x_i_2;...;x_i_d),y_i \in \mathbb{R}$ 。“线性回归”（linear regression）试图学得一个线性模型以尽可能准确地预测实值输出标记。

线性回归试图学得

f(x_i)=wx_i+b ，使得 $f(x_i)\simeq y_i$

以下是一元变量和二元变量的线性回归示意图：

3. 线性回归损失函数、代价函数、目标函数

损失函数： $loss=(h_w (x^{(i)})-y^{(i)})^{2}$

代价函数： $J=\frac{1}{2m}\sum_{i=1}^{m}(h_w (x^{(i)})-y^{(i)})^{2}$

目标函数： minimizeJ(w_0,w_1,...,w_d)

4. 优化方法(梯度下降法、牛顿法、拟牛顿法等)

梯度下降法：是一个用来求函数最小值的算法，其思想：随机选择一个参数组合，计算代价函数，然后寻找下一个能让代价函数值下降最多的参数组合。持续上述步骤直到找到一个局部最小值（local minimum），由于没有尝试完所有的参数组合，所以不能确定得到的局部最小值是否为全局最小值（ global minimum），选择不同的初始参数组合，可能会找到不同的局部最小值。