DataWhale-1学习

最新推荐文章于 2024-06-17 12:59:20 发布

qq_38252775

最新推荐文章于 2024-06-17 12:59:20 发布

阅读量129

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38252775/article/details/88062971

版权

机器学习的一些概念

1、有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证

有监督：训练集有类别标记（label）
无监督：训练集无类别标记（不知道训练结果）
泛化能力：机器学习模型对未知数据的预测能力，称为泛化(generalization)能力。
过拟合：模型复杂度太高，使得模型对训练样本有很好地预测性能，但是对测试样本的预测性能很差，最终泛化能力也不行。

解决办法：1）重新清洗数据，导致过拟合的一个原因也有可能是数据不纯导致的，如果出现了过拟合就需要我们重新清洗数据；

2）增大数据的训练量，还有一个原因就是我们用于训练的数据量太小导致的，训练数据占总数据的比例过小；

3）采用正则化方法。

4）采用dropout方法。

欠拟合：模型复杂度太低，使得模型能表达的泛化能力不够，对测试样本和训练样本都没有很好地预测性能。

解决办法：1）添加其他特征项，有时候我们模型出现欠拟合的时候是因为特征项不够导致的，可以添加其他特征项来很好地解决。例如：组合，泛化，相关性，上下文特征，平台特征等。

2）添加多项式特征，例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。

3）减少正则化参数，正则化的目的是用来防止过拟合的，但是现在模型出现了欠拟合，则需要减少正则化参数。

偏差(Bias)，误差(Error)，方差(Variance):

首先： $Error^{2}=Bias^{2}+Variance$

Error反映的是整个模型的准确度，Bias反映的是模型在样本上的输出与真实值之间的误差，即模型本身的精准度，Variance反映的是模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性。如下图，随着模型的复杂度增加，模型预测的偏差会越来越小，但是方差越来越大，预测结果的分布会散开来。

⑥方差： $var(x)=E[(f(x;D))-\widetilde{y}\left ( x \right )^{2}]$

⑦偏差： $bias^{2}\left ( x \right )=\left ( \widetilde{y} \right \left ( x \right )-y)^{2}$

⑧交叉验证：重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集合测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。在此基础上可得到多组不同的训练集和测试集，某次训练集中的某样本在下次可能成为测试集中的样本，即所谓“交叉”。

2、线性回归的原理

给定数据集D，线性回归试图学得一个线性模型以尽可能准确地预测实值输出标记。

3. 线性回归损失函数、代价函数、目标函数

目标函数：我们需要的最终结果，及最终拟合了数据的函数。 $y=\Theta _{1}*x_{1}+\Theta _{2}*x_{2}+b$

损失函数：我们得到的预测值y_pre与真实数据y的某种方式计算出来的差值。一般线性回归问题用均方差来作为损失函数。

代价函数：任何可以衡量预测出来的y_pre值与真实值y之间的差异的函数。

4. 优化方法(梯度下降法、牛顿法、拟牛顿法等)

梯度下降：一种寻找函数极小值的方法。在已知参数当前值的情况下，按当前点对应的梯度向量的反方向，并按事先给定好的步长大小，对参数进行调整。对参数多次调整之后，函数会逼近一个极小值。

牛顿法：在实数域和复数域上近似求解方程的方法。使用函数f(x)的泰勒级数的前面几项来寻找方程f(x)=0的根。牛顿法最大的特点在于它的收敛速度很快。

拟牛顿法：求解非线性优化问题最有效的方法之一。拟牛顿法的本质思想是改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷，它使用正定矩阵来近似Hessian矩阵的逆，从而简化了运算的复杂度。

5、线性回归的评估指标

均方误差MSE(平方和取平均值)，均方根误差RMSE(平方和取平均值开根号)，平均绝对误差MAE，R Squared R方。

6、sklearn参数详解

LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_jobs=1)

fit_intercept:是否有截距，如果没有则直线过原点。

Normalize:是否将数据归一化。

Copy_X：默认为True，当为True时，X会被copied，否则X将会被覆写。

N_jobs：默认值为1。计算时使用的核数。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DataWhale-1学习

机器学习的一些概念1、有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证有监督：训练集有类别标记（label）无监督：训练集无类别标记（不知道训练结果）泛化能力：机器学习模型对未知数据的预测能力，称为泛化(generalization)能力。过拟合：模型复杂度太高，使得模型对训练样本...
复制链接

扫一扫

qq_38252775 CSDN认证博客专家 CSDN认证企业博客

码龄7年

3: 原创

116万+: 周排名

179万+: 总排名

849: 访问

: 等级

70: 积分

0: 粉丝

0: 获赞

1: 评论

1: 收藏

私信

关注

热门文章

最新评论

Task5:卷积神经网络基础
CSDN-Ada助手: 非常感谢CSDN博主分享的博客《Task5:卷积神经网络基础》，我觉得这篇文章讲解得非常清晰，对于想要学习卷积神经网络的读者来说非常有帮助。我建议下一篇博客可以深入探讨卷积神经网络的应用，比如在图像识别、自然语言处理等领域中的具体应用案例和实现方法，相信会对其他用户产生更大的帮助和启发。期待更多精彩的技术文章！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。