机器学习最常见的问题，过拟合、欠拟合

最新推荐文章于 2023-04-30 18:58:45 发布

饭饭童鞋

最新推荐文章于 2023-04-30 18:58:45 发布

阅读量376

点赞数 2

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/continuing1234/article/details/118187454

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

机器学习就是让机器通过学习数据来获得某种知识，从而获得解决问题的能力。

1.数据集
数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。

2.特征（属性）
通过对样本数据的汇总，提取出对象或者事件在某方面的表现或性质的事项，提取出的这些表现或者事项我们称之为特征（feature）或者属性（attribute）。

3.训练集和测试集
将整个数据集分为训练集和测试集两个集合，训练集中的数据是用来在训练模型的过程中所使用的，通过对训练集中的数据对的某种潜在的规律而学得的模型，这一过程称之为“假设”。在这个过程中，就是对这个“假设”的一个验证过程，验证“假设”的真实度的一个过程，在这样一个反复的寻找的过程中找出或逼近真相。往往我们对训练集中的选择，只占据样本空间一个很小部分。测试集则是将训练集训练出来的模型，进行测试验证的一个过程，这个被用来测试的数据集我们称之为“测试集”。
（验证集用来验证模型的有效性，训练集用来训练模型，测试集用来对模型进行预测）
数据集的分类
4.有监督式学习、无监督学习、半监督学习、强化学习
有监督学习：是指训练的数据是有标签的，算法依据标签和预测之间的差异对模型进行修正的学习过程。
无监督学习：训练的数据没有标签，自动从训练数据中学习，建立模型
半监督学习：半监督学习使用的数据，一部分是标记过的，而大部分是没有标记的
强化学习：强化学习与半监督学习类似，均使用未标记的数据，但是强化学习通过算法学习是否距离目标越来越近
区别：
（1）监督学习有反馈，无监督学习无反馈，强化学习是执行多步之后才反馈。
（2）强化学习的目标与监督学习的目标不一样，即强化学习看重的是行为序列下的长期收益，而监督学习往往关注的是和标签或已知输出的误差。
（3）强化学习的奖惩概念是没有正确或错误之分的，而监督学习标签就是正确的，并且强化学习是一个学习+决策的过程，有和环境交互的能力（交互的结果以惩罚的形式返回），而监督学习不具备。

5.过拟合、欠拟合
过拟合：在训练集上表现很好，而在测试集上表现很差。
产生原因：模型过于复杂，以至于学习太过了，把噪声的特征也学习进去了
解决方法：正则化、数据增强、Dropout和训练提前停止等

欠拟合：欠拟合指的是模型在训练和预测时表现都不好的情况
产生原因：特征维度过少，导致拟合的函数无法满足训练集，误差较大
解决方法：增加模型复杂度，增加训练样本，提取更多特征

6.简述线性回归与逻辑回归的区别
（1）任务不同：回归模型是对连续的量进行预测；分类模型是对离散值/类别进行
（2）输出不同：回归模型的输出是一个连续的量，范围在[-∞,+∞]，分类模型的输出是数据属于某种类别的概率，范围在[0,1]之间；
（3）参数估计方法不同：线性回归中使用的是最小化平方误差损失函数，对偏离真实值越远的数据惩罚越严重；逻辑回归使用对数似然函数进行参数估计，使用交叉熵作为损失函数，对预测错误的惩罚是随着输出的增大，逐渐逼近一个常数。

7.分类和回归的区别在于输出变量的类型。
定量输出称为回归，或者说是连续变量预测；
定性输出称为分类，或者说是离散变量预测。

应用场景：
回归问题的应用场景
回归问题通常是用来预测一个值，如预测房价、未来的天气情况等等，例如一个产品的实际价格为500元，通过回归分析预测值为499元，我们认为这是一个比较好的回归分析。一个比较常见的回归算法是线性回归算法（LR）。另外，回归分析用在神经网络上，其最上层是不需要加上softmax函数的，而是直接对前一层累加即可。回归是对真实值的一种逼近预测。
分类问题的应用场景
分类问题是用于将事物打上一个标签，通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗，分类通常是建立在回归之上，分类的最后一层通常要使用softmax函数进行判断其所属类别。分类并没有逼近的概念，最终正确结果只有一个，错误的就是错误的，不会有相近的概念。最常见的分类方法是逻辑回归，或者叫逻辑分类。

8.简述K均值聚类算法的流程。
答：假设有m条数据，n个特性，则K均值聚类算法的流程如下：
（1）随机选取k个点作为起始中心(k行n列的矩阵，每个特征都有自己的中心)；
（2）遍历数据集中的每一条数据，计算它与每个中心的距离；
（3）将数据分配到距离最近的中心所在的簇；
（4）使用每个簇中的数据的均值作为新的簇中心；
（5）如果簇的组成点发生变化，则跳转执行第2步；否则，结束聚类。

9.Lasso回归和岭回归的同和异：

相同：
都可以用来解决标准线性回归的过拟合问题。
不同：
① lasso 可以用来做 feature selection，而 ridge 不行。或者说，lasso 更容易使得权重变为 0，而 ridge 更容易使得权重接近 0。
② 从贝叶斯角度看，lasso（L1 正则）等价于参数 w 的先验概率分布满足拉普拉斯分布，而 ridge（L2 正则）等价于参数 w 的先验概率分布满足高斯分布。

饭饭童鞋

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习最常见的问题，过拟合、欠拟合

1.数据集数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。2.特征（属性）通过对样本数据的汇总，提取出对象或者事件在某方面的表现或性质的事项，提取出的这些表现或者事项我们称之为特征（feature）或者属性（attribute）。3.训练集和测试集将整个数据集分为训练集和测试集两个集合，训练集中的数据是用来在训练模型的过程中所使用的，通过对训练集中的数据对的某种潜在的规律而学得的模型，这一过程称之为“假设”。在这个过程中，就是对这个“假设”的一个验证过程，验证“假设”的真实度的
复制链接

扫一扫