1.2监督学习笔记

啥都想学点

已于 2022-08-23 22:18:18 修改

阅读量443

点赞数

分类专栏：统计学习方法文章标签：学习机器学习算法

于 2022-08-10 21:40:59 首次发布

本文链接：https://blog.csdn.net/qq_40787900/article/details/126256106

版权

统计学习方法专栏收录该内容

8 篇文章 0 订阅

订阅专栏

在这里插入图片描述

文章目录

一、基本概念
二、问题的形式化

一、基本概念

监督学习的任务是学习一个模型，使模型能够对任意给定的输入，对其相应的输出做出一个好的预测。

个人理解:
学习就是输入一些获得的数据集，通过学习，获得一个模型，并通过这个模型，对其他数据进行预测。
而监督学习，是因为所获得的数据是有标签的，比如，下面的数据，花瓣长，宽，叶子长，宽是特征值，种类是标签，通过这种特征值和标签有对应关系的数据进行的学习，称为监督学习。

花瓣长	花瓣宽	叶子长	叶子宽	种类
0.2	0.5	1.5	1.3	种类A
0.1	0.3	1.7	1.2	种类A
1.2	0.85	0.75	1.13	种类B
0.86	0.96	1.0	0.9	种类B
…

1.输入空间、特征空间、输出空间

1.1概念

输入空间：输入所有可能取值的集合称为输入空间。
输出空间：输出所有可能取值的集合称为输出空间。
特征空间：所有特征向量存在的空间称为特征空间。
特征向量：每个具体的输入是一个实例，有特征向量表示。

1.2 表达式

特征向量：实例 $x$ 的特征向量记作：
$x=(x^{(1)},x^{(2)},x^{(3)}...x^{(i)}...x^{(n)})^{T} \tag{1}$
其中， $x$ 为输入实例， $x^{(i)}$ 表示 $x$ 的第 $i$ 个特征。如果要表示第 $i$ 个实例，则表示为：
$x_i=(x^{(1)}_i,x^{(2)}_i,x^{(3)}_i...x^{(i)}_i...x^{(n)}_i)^{T} \tag{2}$
训练集：训练集通常表示为：
$T = \{ (x_1,y_1),(x_2,y_2),...(x_N,y_N)\}$
输入变量用 $X$ 表示，输出变量用 $Y$ 表示，输入变量的取值用 $x$ 表示，输出变量的取值用 $y$ 表示。

例如：
表格数据集中，我们用花瓣长，宽，叶子长，宽来预测花的种类，
输入变量为 :
$X = \{x_1,x_2,x_3,x_4...\} = \{(0.2,0.5,1.5,1.3)^T,(0.1,0.3,1.7,1.2)^T,(1.2,0.85,0.75,1.13)^T,(0.86,0.96,1.0,0.9)^T...\}$
输出变量为:
$Y = \{y_1,y_2,y_3,y_4..\}=\{种类A，种类A，种类B，种类B\}$
第1个特征为：
$x_1 =(x^{(1)}_1,x^{(2)}_1,x^{(3)}_1,x^{(4)}_1...)^{T} = (0.2,0.5,1.5,1.3)^T$
训练集为：
$T = \{ (x_1,y_1),(x_2,y_2),(x_3,y_3),(x_4,y_4)...\} = \{(0.2,0.5,1.5,1.3,种类A),(0.1,0.3,1.7,1.2,种类A)...\}$

1.3 预测任务的分类

输入变量为连续变量，输出变量为连续变量，此类预测问题为回归问题；
输出变量为有限个离散变量，此类预测问题为分类问题；
输入变量为变量序列，输出变量为变量序列，此类预测问题为标注问题；

2.联合概率分布

联合概率分布简称联合分布，对随机向量X={X1,X2…Xm}的概率分布，称为随机变量X1,X2…Xm 的联合概率分布。根据随机变量的不同，联合概率分布的表示形式也不同。对于离散型随机变量，联合概率分布可以以列表的形式表示，也可以以函数的形式表示；对于连续型随机变量，联合概率分布通过非负函数的积分表示。

3.假设空间

由输入空间到输出空间的映射的集合称之为假设空间。由条件概率分布 $P (X ∣ Y)$ 或决策函数 $Y = f (X)$ 表示。

二、问题的形式化

在这里插入图片描述

通过训练数据集 $T$ 获得一个训练模型，表示为条件概率分布 $\hat{P}(Y|X)$ 或决策函数 $\hat{f}(X)$
通过测试样本中的输入 $x_{N+1}$ ，由模型得出 $y_{N+1} = arg\underset{y_{n+1}}max\hat{P}(Y_{N+1}|X_{N+1})$ 或决策函数 $y_{N+1} = \hat{f}(X_{N+1})$ ,
如果通过模型得到的 $y_{N+1}$ 训练样本中的 $y_{N+1}$ 之间的差足够小，则说明通过学习得到的模型足够好。