【机器学习】《统计学习方法》自学笔记整理

Xyiiii751

于 2024-10-01 20:31:53 发布

阅读量553

点赞数 20

文章标签：机器学习学习方法笔记

本文链接：https://blog.csdn.net/Xyiiii/article/details/142670921

版权

第一章统计学习与监督学习概论

是关于计算机基于数据结构概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也成为统计机器学习。

是数据。从数据出发，学习数据的特征，抽象数据的模型，再对数据进行分析与预测。

用于对数据的预测与分析，特别是对未知新数据的预测与分析。

其中第2、3、4分别就是统计学习方法的三要素：模型（框定了学习范围）、策略（指示什么是好的模型）、算法（如何去找到最优的模型-即该一般化函数对应的特异性参数）

输入空间、特征空间、输出空间

输入空间、输出空间：输入与输出的所有可能取值的集合
特征向量：用来表示每一个具体的输入（instance）
特征空间：所有特征向量存在的空间，他的每一个维度对应一个特征（有时输入空间=特征空间，有时输入空间与输出空间需要存在一定的线性映射 e.g,embedding-语义处理）
输入变量写作X，输入变量的值写作x，第i个输入变量写作 $x_i$ ，输入变量的第i个特征写作 $x^{^{(i)}}$
训练数据由输入（或特征向量）与输出成对组成
输入变量和输出变量X、Y可以有不同的类型。（离散/连续）

联合概率分布

假设空间

输入空间、输出空间：输入与输出的所有可能取值的集合。
每一个输出是对输入的分析结果，由如数的类别，转换或者概率表示；由此模型可以实现聚类，降维或者概率估计。
引入隐式结构空间Z，要学习的模型可以表示为z=g(x)，P(z|x)，P(x|z)，x就是输入，z就是输出。（和监督学习的Y是一个意思）
无监督学习旨在从假设空间中找出一个在给定策略下的最优模型，监督学习旨在学习一个由输入到输出的映射（因为它的策略就是模型需要给出一个和真实数据接近的预测值），本质都是在从假设空间中找出一个在给定策略下的最优模型。

在每一步t，智能系统从环境中检查测到一个状态 $s_t$ 和一个奖励 $r_t$ ，采取一个动作 $a_t$ 。环境根据智能系统选择的动作，决定下一步t+1的状态 $s_{t+1}$ 和奖励 $r_{t+1}$ 。

强化学习是智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。本质是学习最优决策。（这里说的策略是指给定状态下动作的函数a=f(s)或者条件概率分布P(a|s)，也就是说，给定了一个策略，智能系统与环境的互动行为就已经确定。）

奖励函数用于评估智能体在特定状态下采取某一行动的效果。通过给予正面或负面的奖励，智能体能够了解其行为的好坏。
价值函数：定义为策略 $\pi$ 的从某一个状态s开始的长期累积的数学期望。（强化学习关注的是长期行为的效果。选择价值函数最大的策略意味着在多个时间步长内，智能体能够获得最大的累积奖励。）
动作价值函数：定义为策略 $\pi$ 的从某一个状态s和动作a开始的长期累积的数学期望