第一次任务-CSDN博客

本文链接：https://blog.csdn.net/weixin_41948788/article/details/88876349

1：机器学习的一些基本概念：
根据训练数据是否拥有标记信息，学习任务可以分成“监督学习”和“非监督学习”两大类，分类和回归是前者的代表，聚类是后者的代表。
泛化是指机器通过学习得出的模型对于未知数据的预测能力。
过拟合是指机器学习得到的模型将训练样本自身的一些特点当做了所有的潜在样本都具有的一般性质，这样会导致模型额定泛化能力下降。
欠拟合和过拟合是相对的，它对训练样本的一般性质尚未学好。
交叉验证是将数据集D划分为a个大小相似的互斥的子集，每个子集都尽可能保持数据分布的一致性，即从D中通过分层采样得到。然后每次训练的时候,用其中的a-1个数据集作为训练集，剩下的那个数据集作为测试集，这样就获得了k组训练集/测试集。
2：线性回归的原理：
在N维空间中，有一堆数据，可以找到一条直线，描述这些数据的分布规律，而这条直线尽可能的分布在这些直线的周围。
3：线性回归的损失函数，代价函数吗，目标函数。
线性回归的目的是试图学得h(xi)=wxi+b 其中f(xi)约等于yi
依据我们的训练集，选取最优的w和b，在我们的训练集中让h(x)尽可能接近真实的值。h(x)和真实的值之间的差距，我们定义了一个函数来描述这个差距，这个函数称为损失函数，下面的J函数就是损失函数，是依据最小二乘法的原理得到的。

而我们的目标就是让J函数的值最小。找出J函数最小值时对应的w和b的值。
4：优化方法
1）梯度下降法：梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向，所以也被称为是”最速下降法“。最速下降法越接近目标值，步长越小，前进越慢
2）：牛顿法：牛顿法是一种在实数域和复数域上近似求解方程的方法。方法使用函数f (x)的泰勒级数的前面几项来寻找方程f (x) = 0的根。牛顿法最大的特点就在于它的收敛速度很快。
首先，选择一个接近函数 f (x)零点的 x0，计算相应的 f (x0) 和切线斜率f ’ (x0)（这里f ’ 表示函数 f 的导数）。然后我们计算穿过点(x0, f (x0)) 并且斜率为f '(x0)的直线和 x 轴的交点的x坐标，也就是求如下方程的解：
在这里插入图片描述
我们将新求得的点的 x 坐标命名为x1，通常x1会比x0更接近方程f (x) = 0的解。因此我们现在可以利用x1开始下一轮迭代。迭代公式可化简为如下所示：

5：线性回归的评价指标：
MSE:均方误差