1.8 监督学习应用

在这里插入图片描述

监督学习的应用主要在三个方面:分类问题、标注问题、回归问题。

一、分类问题

1.基本概念

1.分类器(classifier):监督学习从数据中学习一个分类模型或者分类决策函数称为分类器(classifier);
2.分类(classification):分类器对新的输入进行输出的预测,称为分类;
3.类别(class):可能的输出称为类别。

2.分类过程

分类问题包括学习分类两个过程。

  • 学习过程:就是根据已知的训练数据集利用有效的学习方法学习一个分类器;
  • 分类过程:利用学习的分类器对新的输入实例进行分类。
    分类问题

3.性能指标

通常我门用分类准确率来评价分类器的性能。所谓的分类准确率就是指:对于给定的预测数据集,分类器正确分类的样本数与总样本数之比。

对于二类分类问题,常用的评价指标是精确率、召回率
例 1
假设有100人的身体健康检查数据,我们通过先前的训练,获得一个学习模型用于判断一个人是否患病,通过该学习模型对这100人的健康数据记性分类,具体情况如下表:

实际健康实际患病预测总计
预测健康40(TP)10(FP)50
预测患病30(FN)20(TN)50
实际总计7030

通过上边可知,在这100人的数据中,真正患病的有30人,健康的有70人。而我们通过学习模型进行预测后,预测健康和患病的各50人。我们将:

  • 实际健康预测为健康的情况用TP表示;
  • 实际健康预测为患病的情况用FN表示;
  • 实际患病预测为健康的情况用FP表示;
  • 实际患病预测为患病的情况用TN表示;

精确率定义为: P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
召回率定义为: R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
准确率定义为: a c c u r a c y = 预测正确的数量 样本总数 accuracy =\frac{预测正确的数量}{样本总数} accuracy=样本总数预测正确的数量

二、标注问题

1.基本概念

标注问题的输入是一个观测序列,输出是一个标记序列或者状态序列。

标注问题的目的在于学习一个模型,是他能够对观测序列给出标记序列作为预测。

常用的统计学方法有:隐马尔科夫模型,条件随机场;

2. 标注过程

标注问题分为学习和标注两个过程。
在这里插入图片描述

三、回归问题

1.基本概念

回归问题用于预测输入变量和输出变量之间的关系,回归模型是表示从输入变量到输出变量之间映射函数,等价于函数拟合:选择一条函数曲线时期很好的拟合一直数据且很好的预测未知数据。

2.回归过程

回归问题分为学习和预测两个过程;
在这里插入图片描述
按照输入变量的个数,回归问题分为一元回归和多元回归;
按照输入变量和输出变量之间的关系的类型,回归问题分为线性回归和非线性归回。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值