(一)概论

统计学习的定义:计算机通过运用数据及统计方法提高系统性能的学习
统计学习的对象:数据
统计学习的目标在于:从假设空间中选取最优模型
训练集用来训练模型,验证集用来选择模型,测试集用于对学习方法的评估。
统计学习的方法:基于数据构建概率统计模型从而对数据进行预测与分析
实现方法的步骤:
①得到一个有限的训练数据集合
②确定包含所有可能模型的假设空间(学习模型的集合)
③确定模型选择的准则(学习的策略)
④实现求解最优模型的算法(学习的算法)
⑤利用学习的最优模型对新数据进行预测和分析
机器学习的分类:主要包括监督学习、无监督学习、强化学习
在这里插入图片描述

1、监督学习:从标注数据中学习预测模型
在这里插入图片描述
输入变量和输出变量均为连续变量的预测问题称为回归问题,输出变量均为有限个离散变量的预测问题称为分类问题,输入变量和输出变量均为变量序列的预测问题称为标注问题
2、无监督学习:从无标注数据中学习预测模型
在这里插入图片描述
3、强化学习:智能系统在与环境的连续互动中学习最优行为策略
在这里插入图片描述
统计学方法三要素:方法=模型+策略+算法
模型:所要学习的条件概率分布或决策函数。
模型的假设空间:包括所有可能的条件概率分布或决策函数。
策略:按照什么样的标准学习或者选择最优模型
两个基本策略:经验风险最小化和结构风险最小化(正则化方法)
算法:学习模型的具体计算方法(用什么样的计算方法求解最优模型)

学习方法的评估标准:基于损失函数模型的训练误差和测试误差
泛化能力:对未知数据的预测能力
过拟合:对训练数据的预测能力很好,但是对未知数据的预测很差。
常用的模型选择方法:正则化、交叉验证
(1)正则化:是结构风险最小化的实现,是在经验风险上加一个 正则化项 或 罚项 。
正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大。
(2)交叉验证:重复的使用数据。把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复进行训练、测试以及模型选择。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值