【机器学习】《统计学习方法》自学笔记整理

第一章 统计学习与监督学习概论

1.1 统计学习

统计学习的特点

是关于计算机基于数据结构概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也成为统计机器学习。

统计学习的对象

是数据。从数据出发,学习数据的特征,抽象数据的模型,再对数据进行分析与预测。

统计学习的目的

用于对数据的预测与分析,特别是对未知新数据的预测与分析。

统计学习的方法

  1. 从训练数据出发,假设数据独立同分布的
  2. 确定要学习的模型(特殊)属于某个函数的合集(一般)(e.g.某线性回归模型属于线性函数族)
  3. (对模型的好坏)应用某个评价准则,在这个评价准则下,数据可以在模型作用下获得最优的预测或者分析
  4. 由算法实现最优模型的选则

其中第2、3、4分别就是统计学习方法的三要素:模型(框定了学习范围)、策略(指示什么是好的模型)、算法(如何去找到最优的模型-即该一般化函数对应的特异性参数)

1.2 统计学习的分类

基本分类

监督学习(SL)

输入空间、特征空间、输出空间

  • 输入空间、输出空间:输入与输出的所有可能取值的集合
  • 特征向量:用来表示每一个具体的输入(instance)
  • 特征空间:所有特征向量存在的空间,他的每一个维度对应一个特征(有时输入空间=特征空间,有时输入空间与输出空间需要存在一定的线性映射 e.g,embedding-语义处理)
  • 输入变量写作X,输入变量的值写作x,第i个输入变量写作x_i,输入变量的第i个特征写作x^{^{(i)}}
  • 训练数据由输入(或特征向量)与输出成对组成
  • 输入变量和输出变量X、Y可以有不同的类型。(离散/连续)

联合概率分布

  • 监督学习假设输入与输出的随机变量服从联合概率分布。
  • 联合概率分布的具体意义是未知的

假设空间

  • 假设空间:从输入空间到输出空间的映射的集合,即上文所提到的 “ 要学习的模型(特殊)属于某个函数的集合(一般)”
  • 模型属于假设空间中
  • 模型可以是概率模型,也可以是非概率模型。由条件概率分布Y=P(Y|X),或者非概率Y=f(X)表示。(非概率是Y=P(Y|X)在外面一层又放大化了)

无监督学习(USL)
  • 输入空间、输出空间:输入与输出的所有可能取值的集合。
  • 每一个输出是对输入的分析结果,由如数的类别,转换或者概率表示;由此模型可以实现聚类,降维或者概率估计。
  • 引入隐式结构空间Z,要学习的模型可以表示为z=g(x),P(z|x),P(x|z),x就是输入,z就是输出。(和监督学习的Y是一个意思)
  • 无监督学习旨在从假设空间中找出一个在给定策略下的最优模型,监督学习旨在学习一个由输入到输出的映射(因为它的策略就是模型需要给出一个和真实数据接近的预测值),本质都是在从假设空间中找出一个在给定策略下的最优模型。

强化学习(RL)
  • 模型帮助理解和预测环境行为。
  • 策略指定智能体在不同状态下的行动选择。
  • 算法则是具体的实现方法,用于训练和优化智能体的学习过程。

在每一步t,智能系统从环境中检查测到一个状态s_t和一个奖励r_t,采取一个动作a_t。环境根据智能系统选择的动作,决定下一步t+1的状态s_{t+1}和奖励r_{t+1}

强化学习是智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。本质是学习最优决策。(这里说的策略是指给定状态下动作的函数a=f(s)或者条件概率分布P(a|s),也就是说,给定了一个策略,智能系统与环境的互动行为就已经确定。)

  • 智能系统的目标不是短期奖励最大化,而是长期累计奖励的最大化。

  • 奖励函数用于评估智能体在特定状态下采取某一行动的效果。通过给予正面或负面的奖励,智能体能够了解其行为的好坏。
  • 价值函数:定义为策略\pi的从某一个状态s开始的长期累积的数学期望。(强化学习关注的是长期行为的效果。选择价值函数最大的策略意味着在多个时间步长内,智能体能够获得最大的累积奖励。)
  • 动作价值函数:定义为策略\pi的从某一个状态s和动作a开始的长期累积的数学期望

强化学习的目标就是在所有可能的策略中选出价值函数最大的策略。 

  • 无模型基于策略的强化学习:直接优化策略函数,通常使用梯度上升的方法来提高预期奖励。
  • 无模型基于策略的强化学习:通过估计状态或状态-行动对的价值函数来间接优化策略。
  • 有模型:有模型强化学习试图构建一个环境模型,用于预测状态转移和奖励。知道了环境反馈,直接学习马尔可夫决策过程,求出价值函数最大的策略。

按模型分类 

1.概率模型与非概率模型

概率模型:Y=P(Y|X) 非概率:Y=f(X)

概率模型和非概率模型可以互相转化,他们的区别不在于输入输出之间的映射关系,而在于模型的内在结构。概率模型放大化后可以得到函数形式,函数形式归一化之后可能可以得到概率模型(不一定存在联合分布)。

2.线性模型与非线性模型

3.参数化模型与非参数化模型

参数化:模型参数的维度固定

非参数化:模型参数的维度不固定或无穷大

按算法分类

在线学习与批量学习

在线学习:每次接受一个样本,进行预测,学习模型

批量学习:一次接受所有数据,学习模型,进行预测

按技巧分类

贝叶斯学习

其主要想法是在概率学习模型的学习和推理中利用贝叶斯定理,计算在给定数据条件下模型的条件概率,并利用这个原理进行模型估计,以及对数据的预测。(tbc)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值