机器学习-监督学习2

最新推荐文章于 2022-05-02 19:30:01 发布

amorfatilily

最新推荐文章于 2022-05-02 19:30:01 发布

阅读量231

点赞数

分类专栏：机器学习文章标签：机器学习监督学习最小均方误差

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41741485/article/details/104563214

版权

机器学习专栏收录该内容

35 篇文章 0 订阅

订阅专栏

逻辑回归

分类

分类模型的结果输出为离散化，回归模型的输出为连续化。
二分类或多分类

预测一个用户是否点击特定的商品（点击/未点击）
预测用户是否会购买给定的商品（购买/未购买）
判断一条评论是正面的还是负面的（正面/负面）

分类学习

概念：在机器学习和统计中，分类根据包含已知类别成员的观察值（或实例）的训练数据集来确定新观测值所属的一组类别（子群）中的哪一个。
举例：将给定的电子邮件分为“垃圾邮件”和“非垃圾邮件”类，或根据观察到的患者特征（性别，血压，是否存在某些症状等）描述给指定患者分配诊断。
在这里插入图片描述
逻辑回归模型

梯度下降过程

总结

结果

过拟合

案例分析
在这里插入图片描述
信号和噪声

在建模分析中，我们可以将“信号”理解为从数据中真正想要学习到的信息，“噪声”则是数据集中的不相关信息和不确定性。好的机器学习模型应该是找出“信号”，而过于复杂的模型会将“噪声”也记住。

拟合优度

机器学习中，拟合优度（goodness of fit）指的是模型预测值与真实值相匹配的程度。学习“噪声”的模型被称为是过拟合（overfit），在训练集上表现良好，但是与新训练集的拟合优度差。如下图绿线所示：
在这里插入图片描述
欠拟合

与过拟合相对的拟合曲线被称为欠拟合（underfit），对已有训练集的拟合程度差，模型表现效果差，没有学习到数据中的信息，这样的拟合曲线被称为欠拟合。如下图所示：
在这里插入图片描述
欠拟合VS过拟合

防止欠拟合：

选取或构造新的特征
增加模型复杂度
检查数据是否噪声较大
增加模型训练时间

防止过拟合：

为了检测模型是否过拟合，我们可以将我们的初始训练数据集分成单独的训练集（train set）和验证集（validation set），该方法可近似我们的模型在新的数据上的表现。

在训练集上完成模型的训练和拟合，在验证集上判断模型是否过拟合（调整参数），测试集用来判断模型的表现能力。
在这里插入图片描述
学习曲线

我们在训练集上训练模型，在验证集上评估模型同时记录误差绘制出学习曲线。
在这里插入图片描述
训练集较小的时候，训练误差远远小于验证误差，模型完全过拟合；训练集增大时，训练误差越来越接近验证误差，这时模型拟合效果越好。

权衡偏差与方差

统计学习和机器学习中模型或结果的泛化误差通常可以表示为三个不同误差的总和：偏差（bias）、方差（variance）、残差（irreducible error，也称为噪声）。

学习算法的期望预测
偏差（期望输出与真实标记的差别，是由错误的模型假设造成的，模型呈现欠拟合的状态）
方差（度量了同样大小的训练集变动所导致的学习性能的变化，即刻画了数据扰动造成的影响）
噪声
期望泛化误差

结论：

增加模型的复杂度会增加预测结果的方差同时减小误差，相反减小模型复杂度会增加偏差、减小方差。

防止过拟合

k折交叉验证选择训练参数
使用更多数据来训练
删除部分相关度高的特征
正则化
过拟合前提前停止训练模型

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。