欠拟合和过拟合

1 定义

  • 过拟合:⼀个假设在训练数据上能够获得⽐其他假设更好的拟合, 但是在测试数据集上却不能很好地拟合数据, 此时认为这个假设出现了过拟合的现象。(模型过于复杂)
  • ⽋拟合:⼀个假设在训练数据上不能获得更好的拟合,并且在测试数据集上也不能很好地拟合数据,此时认为这个 假设出现了⽋拟合的现象。(模型过于简单)
    在这里插入图片描述

2 原因以及解决办法

  • ⽋拟合原因以及解决办法
    • 原因:学习到数据的特征过少
    • 解决办法:
      • 1)添加其他特征项,有时候我们模型出现⽋拟合的时候是因为特征项不够导致的,可以添加其他特征项 来很好地解决。例如,“组合”、“泛化”、“相关性”三类特征是特征添加的重要⼿段,⽆论在什么场景,都可以照葫芦画瓢,总会得到意想不到的效果。除上⾯的特征之外,“上下⽂特征”、“平台特征”等等,都可以 作为特征添加的⾸选项。
      • 2)添加多项式特征,这个在机器学习算法⾥⾯⽤的很普遍,例如将线性模型通过添加⼆次项或者三次项 使模型泛化能⼒更强。
  • 过拟合原因以及解决办法
    • 原因:原始特征过多,存在⼀些嘈杂特征, 模型过于复杂是因为模型尝试去兼顾各个测试数据点
    • 解决办法:
      • 1)重新清洗数据,导致过拟合的⼀个原因也有可能是数据不纯导致的,如果出现了过拟合就需要我们重 新清洗数据。
      • 2)增⼤数据的训练量,还有⼀个原因就是我们⽤于训练的数据量太⼩导致的,训练数据占总数据的⽐例 过⼩。
      • 3)正则化
      • 4)减少特征维度,防⽌维灾难

3 正则化

3.1 什么是正则化

在解决回归过拟合中,我们选择正则化。但是对于其他机器学习算法如分类算法来说也会出现这样的问题,除了⼀些算 法本身作⽤之外(决策树、神经⽹络),我们更多的也是去⾃⼰做特征选择,包括之前说的删除、合并⼀些特征
在这里插入图片描述
如何解决?
在这里插入图片描述
在学习的时候,数据提供的特征有些影响模型复杂度或者这个特征的数据点异常较多,所以算法在学习的时候尽量减少 这个特征的影响(甚⾄删除某个特征的影响),这就是正则化
注:调整时候,算法并不知道某个特征影响,⽽是去调整参数得出优化的结果

3.2 正则化类别

  • L2正则化
    • 作⽤:可以使得其中⼀些W的都很⼩,都接近于0,削弱某个特征的影响
    • 优点:越⼩的参数说明模型越简单,越简单的模型则越不容易产⽣过拟合现象
    • Ridge回归 -
  • L1正则化
    • 作⽤:可以使得其中⼀些W的值直接为0,删除这个特征的影响
    • LASSO回归

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值