P32~41 逻辑回归+逻辑回归的代价函数+过拟合及其解决方法+正则化

最新推荐文章于 2024-11-06 10:55:54 发布

Ari-10010

最新推荐文章于 2024-11-06 10:55:54 发布

阅读量101

点赞数

分类专栏：吴恩达ML 文章标签：逻辑回归机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43758383/article/details/131192855

版权

吴恩达ML 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

逻辑回归是一种广泛使用的分类算法，对比线性回归，它能更好地处理分类问题，如肿瘤类型判断。通过逻辑函数，逻辑回归可以得出介于0和1之间的概率值，避免误诊。损失函数和正则化是防止过拟合的关键，正则化通过限制参数大小来平衡模型复杂度和泛化能力。特征选择、数据量增加也是解决过拟合的方法。

摘要由CSDN通过智能技术生成

逻辑回归可能是世界上使用最广泛的单一分类算法

以判断肿瘤类型为例，在线性回归模型当中

对于正常数据集来说，会出现蓝色的线性回归，在标准0.5处做垂线，左侧为良性，右侧恶性

但如果有些数据过大，则会导致出现绿色的线性回归，将直线的斜率降低

这样做会使得本来应该诊断为恶性的肿瘤因为低于标准0.5，误诊为良性

所以，线性回归未必是一个好的分类方法

相比之下，我们做的逻辑回归会为这个数据集拟合出一条看起来像S型的曲线

如果患者被判断为0.7，但输出的标签只有0或1

为了构建逻辑回归算法，我们要描述一个重要的数学函数，即逻辑函数，如下右图

逻辑函数的关键是z的取值，因为是指数且为-z

当z为负很小的数时，负负得正，使得分母很大，g(z)接近于0，反之g（z）接近于1

构建逻辑回归算法分两步

第一步，先通过一个类似线性回归的函数来计算z

第二步，将第一步的z传入逻辑函数，然后由逻辑函数计算，最后的值将介于0和1之间

下一步是解释逻辑回归函数给出值的含义

仍然以肿瘤分类为例，读者应该看得懂英文吧，我就不翻译了

下面看一下决策边界，以便更好了解逻辑回归是如何计算这些预测的

通常设标准为0.5，为了得到0.5我们需要对逻辑函数进行计算

进一步的使得我们需要对输入的z有要求，通常是Z=0，这也是关键所在

不同的参数设置会有不同的边界

本例中，设置参数值如图所示，当x1+x2=3时，才能满足z=0

所以x1+x2=3这条线为边界

本例中，x1^2+x2^2=1为边界，才能满足z=0

实际应用中的边界曲线千变万化

逻辑回归的损失函数如下，假设只有真假（二分类）

但我们实际上可以将他写成如下式子

将不同的y代入是等效的

过拟合与欠拟合

有三种情况，老师列举了三种例子

欠拟合，在训练集上表现就不好

正常情况，大致契合训练集中的数据

过拟合，完美契合训练集中的数据，但也因此对新的数据不能做很好的预测，不适合推广

我们希望我们的模型是一个没有高偏差也没有高方差的模型

解决过拟合有以下几个方法

第一个，选择合适的特征

虽然我们可以有很多的特征，但如果数据量不足那么会出现左侧情况

适当选择合适的特征，会解决此类问题，但又会产生丢失特征的情况

第二个，收集更多的数据

第三个，正则化

正则化的作用是可以保留所有特征，但他们只是防止产生过大的影响，通常做法是减少参数的大小

它鼓励学习算法缩小参数值，而不要求参数正好设置为0

本例中，参数设置很大时，在乘以本来就很大的系数1000，结果会更大

正则化时我们将参数赋予一个很小的值，结果会有显著不同

但实际应用中，正则化往往有很多参数，我们不知道哪些是最重要的特征，哪些是要惩罚的

因此，正则化的典型方式是惩罚（老师是这么说的）所有的特征

本例中，我们设置了100个特征，因为我们不知道哪些是重要的

所以我们稍微惩罚一下他们，并通过添加一个新项λ

乘以1到n的平方总和来缩小他们，本例中n为100，这里的λ也称之为正则化参数

我们通常会忽略对b的处理，因为做与不做对结果影响不大

新生成的成本函数会权衡我们可能拥有的两个目标

尝试最小化第一项会鼓励算法通过最小化预测值和实际值的平方差来很好的拟合训练数据

并尽量减少第二项，试图使参数Wj保持较小，减少过拟合

这里λ的取值要适当

博客等级

码龄6年

16
原创

0
点赞

0
收藏

11
粉丝

关注

私信

热门文章

分类专栏

吴恩达ML 6篇
李宏毅ML 8篇

最新评论

决策树+熵+信息增益+one-hot+回归树+随机森林+XGBoost
CSDN-Ada助手: 恭喜您写了第16篇博客！标题中提到的决策树、熵、信息增益、one-hot编码、回归树、随机森林和XGBoost等内容都是机器学习中非常重要的概念和技术。您的博客内容丰富，对于学习这些算法的读者来说一定非常有帮助。在下一步的创作中，建议您可以更深入地探讨这些算法的原理和应用场景，并结合实际案例进行说明。此外，可以考虑分享一些优化算法参数的技巧或者讨论这些算法在大规模数据集上的效果等方面的内容。期待您继续创作，分享更多有价值的知识！
precision + recall 两者合适的平衡点 F1分数
CSDN-Ada助手: 恭喜您完成了第15篇博客！标题“precision + recall 两者合适的平衡点 F1分数”非常吸引人，让人迫不及待地想去了解更多关于平衡点和F1分数的知识。您对于这一主题的深入探讨无疑会给读者带来新的启示。接下来，我衷心建议您在下一篇博客中可以考虑分享一些实际案例或是提供一些实用的解决方案，以便读者能够更好地应用这些概念。期待您更多的创作，谢谢您的分享！
P63~71 激活函数相关+softmax+多输出/标签分类
CSDN-Ada助手: 恭喜您写完了第13篇博客！标题内容非常有趣，涵盖了激活函数相关的知识点，以及softmax和多输出/标签分类的内容。您的文章内容很丰富，让读者能够更全面地了解这些主题。不过，我认为您可以进一步扩展您的创作领域。下一步，或许您可以尝试探讨一些激活函数的实际应用案例，或者深入研究多输出/标签分类在不同领域的应用。希望您能继续保持创作的热情，期待看到更多精彩的文章！
迭代循环+迁移学习
CSDN-Ada助手: 恭喜您撰写了第14篇博客！标题中的“迭代循环+迁移学习”让我非常期待阅读您的观点和经验。持续创作是一个很了不起的成就，您的努力和坚持让我钦佩不已。在下一步的创作中，我谦虚地建议您可以进一步探索迭代循环和迁移学习的结合，深入分析它们在不同领域的应用和优势。同时，您也可以尝试引入一些具体的案例和实验结果，以便更好地支持您的观点。再次恭喜您的连续创作，并期待您未来更多精彩的博客！
P26~27 self-supervised learning
CSDN-Ada助手: 恭喜您又写了一篇关于自监督学习的博客，阐述了P26~27的知识点。希望您能继续保持这样的写作热情，分享更多有价值的内容。下一步，建议您可以深入探讨自监督学习在不同领域的应用，或者结合实际案例进行分析，让读者更好地理解其实用性。再次感谢您的分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply6 看奖励名单。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。