统计学习方法

统计学习方法

入门概念

一、监督学习与非监督学习
从模型的训练上来讲分为监督学习、非监督学习。
监督学习(supervised learning)
实现步骤:

1.得到一个有限的训练数据集
2.确定模型的假设空间,也就是所谓的备选模型。即选择模型的 过程。
3.确定模型选择的准则,也就是学习的策略
4.实现模型求解最优解的算法
5.利用学习方法求解最优解模型
6.利用学习到的最优解模型进行预测、分析

监督学习与无监督学习最大的区别就是样本是否有标签
二、方法 = 模型 + 策略 +算法
模型(假设空间):

假设空间说通俗点就是所有可能模型组成的一个集合,我们一般把学习过程看作一个在所有假设组成的空间进行搜索的过程,搜索过程就是找寻与训练集匹配的假设,即能够将训练集中样本正确判断的假设。我们平常最多用的两类模型为决策函数 、条件概率分布。

策略:

0-1损失函数
缺点:只能输出0-1,即对错,不能说明预测值与真实值的偏差有多大

平方损失函数
原理:通过返回的loss反映偏差的程度

绝对损失函数
防止预测值大于真实值,使返回的loss为负

对数损失函数
适用于输入值为概率形式

评估样本风险·

经验风险最小化 每一个样本都去跑一遍,整体上模型与真实值的差距

结构风险最小化

基本与前者相同, 防止过拟合,加上了正则项

算法:

数据集要分为训练集与测试集,一般比例8:1:1 计算训练误差、测试误差
先使用训练集训练数据,在验证集上进行验证,通过验证集选取出多次迭代中最好的训练模型, 再去测试集上进行验证,取得分数作为和其他模型的比较。
正则化与交叉验证 策略上使用最小结构化风险 采取交叉验证: 训练集:模型的训练 测试集:模型的选择 验证集:模型的评估
这样能够强制避免过拟合 正则项的作用: 通过交叉验证,减少模型参数个数,减少复杂度,避免过拟合现象,
控制某些避免训练模型的参数过大导致某些参数过于重要,以至于后期会放大噪音

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值