统计机器学习(统计学习及监督学习概论)

统计机器学习(统计学习及监督学习概论)
研究对象:数据。从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。

目的:用于对数据的预测与分析

分类:监督学习,无监督学习,强化学习。

监督学习
监督学习的本质是学习输入到输出的映射的统计规律,从标注数据中学习预测模型的机器学习问题。

监督学习从训练数据集合学习模型,对测试数据进行预测,训练数据由输入与输出对组成。

监督学习分为学习和训练两个过程。

无监督学习
从无标注数据中学习预测模型的机器学习问题,无标注数据是自然得到的数据。

无监督学习通常使用大量的无标注数据学习或训练。

统计学习方法三要素:
方法=模型+策略+算法

损失函数度量模型一次预测的好坏
风险函数度量平均意义下模型预测的好坏
损失函数值越小,模型就越好

经验风险(经验损失)是模型关于训练样本集的平均损失。
结构风险最小化是为了防止过拟合而提出来的策略。
过拟合:训练过度使泛化能力下降。

在这里插入图片描述

当模型复杂度增大时,训练误差会逐渐减少趋向0,而测试误差会先减小,再增大,当选择模型复杂度过大时,过拟合现象就会发生。

为了解决过拟合的现象,就有两种常用的方法:正则化和交叉验证。
正则化时结构风险最小化策略实现,模型越复杂,正则化值就越大。
交叉验证的基本想法是重复地使用数据:把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复的进行训练,测试以及模型选择。

监督学习任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出,这个模型一般形式为决策函数:Y=F(X)或条件概率分布P(X|Y)。
监督学习方法又可以分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型。
生成方法的学习收敛速度更快,当样本容量增加时,学到的模型可以更快的手链于真实模型,当存在隐变量时,仍可以用生成方法而不能用判别方法。
判别方法直接学习条件概率P(X|Y)或决策函数F(X),往往学习准确率更高,可以对数据进行各种程度上的抽象,定义特征并使用特征,因此可以简化学习问题。

监督学习应用:分类问题,标注问题和回归问题。

在这里插入图片描述
监督学习从数据中学习一个分类模型或分类决策函数,称为分类器,分类器对新的输入进行输出的预测,称为分类。
评价分类器性能指标一般是分类准确率,其定义是:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比,也就是损失函数是0-1损失时测试数据集上的准确率。
标注问题是分类问题的一个推广,目的在于学习一个模型,使它能够对观测序列给出标记序列作为预测。
回归模型是表示从输入变量到输出变量之间映射的函数,等价于函数拟合。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值