【算法梳理】线性回归

目录

1.机器学习的一些概念:

2.线性回归的原理

3.线性回归损失函数、代价函数、目标函数

4.优化方法(梯度下降法、牛顿法、拟牛顿法等)

5.线性回归的评估指标

6.sklearn参数详解


1.机器学习的一些概念:

  • 有监督vs无监督

       根据学习样本是否具有标记信息,学习任务分为有监督学习(样本有标记,比如分类任务和回归任务)和无监督学习(样本没有标记,比如聚类)

  • 泛化能力

       学习的模型适用于新样本的能力。机器学习的目标是使得学习到的模型很好的适用于‘新样本’而不仅仅是训练样本。在新样本上的误差称为泛化误差,在训练样本上的误差称为训练误差或者经验误差

  • 过拟合vs欠拟合

      过拟合:学习器将训练样本自身的特点当作潜在样本都会具有的特点,从而导致泛化性能下降。只能缓解不能避免。增加正则化项等方式。

      欠拟合:学习器对于训练样本的一般性质尚未学好,导致泛化性能不佳。解决办法:在决策树学习中拓展分枝,在神经网络中增加论数等

  • 方差vs偏差

      为x在数据集上的标记,y为x在数据集上的真实标记。为训练集D上学到的模型f在x上的预测输出。

     学习算法的期望预测:

      实验样本数相同的不同训练集产生的方差为:

      噪声:

      期望输出与真实标记的差别称为偏差

      对泛化误差进行分解:

       即:泛化误差等于偏差、方差以及噪声之和。

      【偏差】度量算法的期望预测与真实结果的偏离程度。刻画算法本身的拟合能力。

      【方差】刻画同样大小的训练集变动导致的学习性能的变化。刻画数据扰动造成的影响。

      【噪声】表达当前任务上任何学习算法所能到到的期望泛化误差的下界。刻画学习问题本身的难度。

      上述偏差-方差分解说明,泛化性能由学习算法的能力、数据从分析以及学习任务本身的难度共同决定。给定学习任务后,为了泛化性能尽可能的好,需要使得偏差较小(即可以充分拟合数据),方差较小(即使的数据扰动参数的影响较小)

      偏差-方差窘境:

  • 交叉验证

      将数据集划分为K个大小相似的互斥子集,尽可能保证每个子集上数据分布的一致性。每次用K-1个作为训练集,另外一个作为测试集。这样可以获得K组训练/测试集,进行K次训练和测试。称为K折交叉验证

     为了减少因为样本划分不同而引入的差别,K折交叉验证通常随机的使用不同的划分重复p次,称为p次K折交叉验证。

     与留出法相比

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值