机器学习基本概念、线性回归模型——机器学习入门

最新推荐文章于 2023-10-05 12:01:45 发布

VIP文章 domyslavy

最新推荐文章于 2023-10-05 12:01:45 发布

阅读量443

点赞数

分类专栏： datawhale 组队学习文章标签：线性回归机器学习基本概念

本文链接：https://blog.csdn.net/sinat_41401464/article/details/98784128

版权

task1

【声明】：转摘注明出处，禁止商用。
【声明】：转摘注明出处，禁止商用。
【声明】：转摘注明出处，禁止商用。

文章目录

- task1

1. 机器学习基本概念

监督学习：

监督学习的任务是学习一个模型，使模型能够对任意给定的输入，对其相应的输出做出一个好的预测（注意，这里的输入、输出是指某个系统的输入与输出，与学习的输入与输出不同）。【来源于《统计学习方法》】。

监督学习的特点就是数据具有标签或者函数值，而模型就是学习其输入向量到标签或者函数值的映射关系。监督学习的代表任务是分类和回归。

无监督学习：

没有给定事先标记过的训练示例，自动对输入的数据进行分类或分群。无监督学习的主要运用包含聚类分析（cluster analysis）、关系规则(association rule）、维度缩减（dimensionality reduce）。它是监督式学习和强化学习等策略之外的一种选择。【来源于维基百科】
泛化能力：

泛化能力（generalization ability）是指由该方法学习到的模型对未知数据的预测能力，是学习方法本质上重要的性质。现实中采用最多的方法是通过测试误差来评价学习方法的泛化能力。【来源于《统计学习方法》】

常常把数据预先划分为训练集和测试集，通过训练集对模型中的参数进行学习，在测试集对模型进行误差测试，来考验模型的泛化能力，从此可以把泛化能力看出学得模型适用于新样本的能力，即为泛化能力。

过拟合欠拟合（方差和偏差以及各自的解决方法）：

过拟合:

一味追求对于“ 训练数据 ”的预测能力，所选模型的复杂度则往往会比真模型更高。这种现象称为过拟合（over-fitting）。过拟合是指学习时选择的模型所包含的参数过多，以至于出现这一模型对于已知数据预测得很好，但对未知数据预测得很差的现象。

在偏差-方差分解(bias-variance decomposition)分析中，过拟合现象出现在训练后期，拟合能力逐渐增强，此时方差主导了泛化错误率，在训练充足后，学习器的拟合能力已非常强，训练数据发生的轻微扰动都会导致学习器发生显著变化，若数据自身的、非全局的特性被学习器学到了，则将发生过拟合。

解决途径：

简化训练的模型（算法），选择对于问题适当的学习算法，当算法选择相对于问题过于复杂时，对于模型的中变换的复杂程度增加，会容易使模型对于训练集过于拟合，导致问题发生，选择合适的问题模型算法更好。
由于训练充足后，会对于数据的轻微扰动都会产生显著影响，因此需要对数据进行更高程度的清洗，对于数据的正确性做好保障。
增加训练数据，训练数据的增加让训练的时间和延长到达训练充足的时间点，达到过拟合的时间成本也会提高，便于中止和提前发现过拟合现象。
增加正则化项

过拟合根据问题的不同，可以出发的角度也不同，过拟合也可以认为是把数据中与问题建立模型无关的信息（噪声）也纳入问题模型中，让整个模型的输入空间的正确映射范围变得狭小，把一些本应该为正确映射范围的值排除掉了，导致模型的泛化能力太弱。

欠拟合：

欠拟合与过拟合想反，是模型对于数据本身的分布和映射关系还没学习完整，在终止任务的学习算法时，还未能到达期望泛化误差的下界。

在偏差-方差分解(bias-variance decomposition)分析中，欠拟合现象出现在训练不足时，学习器的拟合能力不够强，训练数据的扰动不足以使学习器产生显著变化，此时偏差主导了泛化错误率。

解决途径：

针对问题选择合适的算法模型，当前模型对于问题来说表达力不足，需要有更强表达能力的算法模型。
添加其他特征项，有时候我们模型出现欠拟合的时候是因为特征项不够导致的，可以添加其他特征项来很好地解决。【来源 will_duan博客】
减少正则化参数，正则化的目的是用来防止过拟合的，但是现在模型出现了欠拟合，则需要减少正则化参数。

交叉验证:

交叉验证是一种从数据集角度的出发的技巧，把数据集按比例划分互补子集（训练集、测试集），对于模型针对训练集学习参数，多次重复按比例划分混乱数据集，再次训练，直到满足模型满足条件时训练结束。

2. 线性回归原理

线性回归问题，对应于问题来说，从问题提炼出的特征以一个变量的形式存在于线性回归的方程组里，而其变量前的系数则取决于该特征对于问题本身的贡献，所带来的影响。

问题模型可以划分为四个空间，输入空间，特征空间、假设空间，输出空间。

输入空间的维度则取决于我们对于建模时所提炼的特征变量的个数。
特征空间是输入空间的一个发展，对于特征与问题本身就具有很强的线性关系时，特征可能不会有很大的处理，这时近似于特征空间约等于输入空间，当问题与特征具有很强的不相关性时（比如XOR问题），可能会才取特征映射技术，比如SVM中常用的核函数，特征哈希、特征学习等。
假设空间是我们需要求解的空间，也就是系数向量存在的空间，我们想要找到一个足够好的高纬度平面，让模型的预测值尽量的接近问题的本身值。
输出空间往往是一个实数空间，是输入向量和系数向量的点积的结果。

$h_{\theta}(x) =\sum_{i=0}^{n}\theta_{i}x_{i} = \theta^{T}x$

3. 线性回归损失函数、代价函数、目标函数

损失函数和代价函数是同一个东西，目标函数是一个与他们相关但更广的概念，对于目标函数来说在有约束条件下的最小化就是损失函数（loss function）。

这里不举例常见有哪些损失函数，可以点击这个链接

4. 优化方法（梯度下降法、牛顿法、拟牛顿法）

梯度下降法(GD ,Gradient Descent)：

梯度下降法是一种迭代算法，选取适当的初值 $x^{(0)}$ ，不断迭代，更新x的值，进行目标函数的极小化，知道收敛。由于负梯度方向是使函数值下降最快的方向，在迭代的每一步，以负梯度方向更新x的值，从而达到减小函数值的目的。（必须要满足目标函数具有一阶连续偏导数）

有三个衍生的变形分别是如下三个，
- 批量梯度下降（BGD, Batch Gradient Descent）
- 随机梯度下降（SGD, Stochastic Gradient Descent）
- 小批量梯度下降（MBGD, Mini-batch Gradient Descent）
【详细点击这里】
牛顿法(Newton’s method)：

牛顿法其实也就是一种递归算法，其本身是找零点的一种算法，最原始的定义如下：

选择一个近似函数 $f (x)$ 的零点 $x_{0}$

最低0.47元/天解锁文章

domyslavy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基本概念、线性回归模型——机器学习入门

task11. 机器学习基本概念监督学习：监督学习的任务是学习一个模型，使模型能够对任意给定的输入，对其相应的输出做出一个好的预测（注意，这里的输入、输出是指某个系统的输入与输出，与学习的输入与输出不同）。【来源于《统计学习方法》】。监督学习的特点就是数据具有标签或者函数值，而模型就是学习其输入向量到标签或者函数值的映射关系。监督学习的代表任务是分类和回归。无监督学习：...
复制链接

扫一扫