7/18 学习笔记 day1 《统计学习方法》 李航
-qiqi
实现统计学习方法(machine_learning)的步骤:
-
有限的训练数据的集合
-
学习模型的集合(及可能的模型的假设空间)
假设空间(hypothesis space):数据为独立同分布产生,且要学习的模型属于某个函数的集合。
-
确定模型的选择的准则。(及学习的策略)
-
实现求解最优模型的算法。(及学习的算法)
-
选择最优的模型。
-
利用学习的最优模型对新数据进行预测或分析。
统计学习主要包括:监督学习、非监督学习、半监督学习、强化学习
本书主要讨论监督学习:学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测
监督学习的基本概念:
- 输入空间、特征空间、输出空间。
-
输入空间:输入所有可能取指的集合
-
输出空间:输出所有可能取值的集合
-
特征空间:所有特征向量存在的空间。
特征向量:每个具体的输入是一个实例。
-
样本(样本点):输入输出对
-
联合概率分布
监督学习假设输入与输出的随机变量X和Y遵循联合概率分布 P(X,Y)P(X,Y)表示分布函数或分布密度函数
-
假设空间
由输入空间到输出空间的映射的集合,该集合就是假设空间。假设空间 意味着学习范围的确定。监督学习的模型可以是概率模型也可以是非概率模型。
1.2问题的形式化
- 我们可以将监督学习理解为一个举三反一的过程。简单理解:将我们的模型看作为一个“婴儿”,他具备一定的学习能力;之后我们教他一些已知的知识。例如“1+1=2,1+2=3,2+1=3,1+3=4”我们称之为训练数据集,里面的每一组数据称之为样本或样本点,教会这个婴儿的过程称为学习系统。之后我们再问这个婴儿"3+1=?",婴儿根据之前的学习可以告诉我们正确结果“4”,这个得到正确结果的过程称为预测系统,我们的问题和婴儿给出的结果便是输入和输出。
- 在整个“婴儿”学习的过程中,我们始终在看着(监督着)这个婴儿学习(就像父母教孩子知识一样,始终陪伴着孩子)因此我们称这种学习方式为监督学习。而我们的“举三”也就是学习过程。“反一”也就是预测过程。这也就是监督学习的两个过程:学习和预测
1.3统计学习三要素
方法=模型+策略+算法
1.31模型
- 模型就是所要学习的条件概率分布或决策函数。假设空间中的模型一般有无穷多个。
1.3.2 策略
- 统计学习的目标在于从假设空间中选取最优模型
- 损失函数和风险函数
损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏
- 风险函数式损失函数的期望