pluskid机器学习博客学习笔记（1）

最新推荐文章于 2024-07-17 16:43:56 发布

PerpetualLearner

最新推荐文章于 2024-07-17 16:43:56 发布

阅读量597

点赞数 2

分类专栏： # 小白学机器学习 # 他山之玉文章标签：机器学习

本文链接：https://blog.csdn.net/The_Time_Runner/article/details/90082890

版权

小白学机器学习同时被 2 个专栏收录

55 篇文章 18 订阅

订阅专栏

他山之玉

14 篇文章 2 订阅

订阅专栏

网上讲机器学习的资料很多，pluskid的博客是第一个让我眼前一亮的，本次记录：

机器学习物语(1)：世界观设定

学习理论Learning Theory
- PAC(Probably Approximately Correct，Leslie Valiant提出)可能近似正确。催生了Boosting算法
- SLT(Statistical Learning Theary，Vapnik提出)，催生了SVM
Andrew Ng
robot/agent 相关的东西和机器学习的一大交集就是一个叫做增强学习 (Reinforcement Learning, RL) 的模型，不过传统的 RL 算法通常都有相当 aggressive 的“探索”环境的过程。极端的情况下某个高难度的“探索性”步骤有可能会使直升机 crash 掉。为了解决这个问题，Andrew Ng 提出了所谓的学徒学习 (Apprenticeship learning)，通过人类示范的方法来引导机器进行学习。
统计分析与机器学习
- 统计分析里可能通常都会假设数据确实是满足某个具体的带参数的分布，从而去研究如何更精确更健壮地估计对应的参数的问题（例如试验设计）；
- 机器学习则通常不会假设数据的真实分布是符合某个参数的概率模型的，或者甚至完全不做任何限制，而在这样的背景下，普通的最大似然是否真的可行呢？要达到给定的精读需要多少数据点、多少计算量？这些才是机器学习所关心的问题。
监督学习
- 常规意义上
- 假定 $\, Y$ 上存在一个联合分布¹ (再严苛一点，只在 $X$ 上存在分布 $P$ ,对应的 $\varepsilon$ )
- 监督学习的训练集和测试集要求独立同分布 (IID)，这样训练集训练出来的模型才有可能用来预测测试集。
1. 目标是通过训练集求得一个 $f$ ,使得 $f (x)$ 可以在测试集上很好的预测 $y$ 。
2. 为了衡量学习质量（假设 $Y = W X$ ,权值矩阵 $W$ ）好坏，定义一个Loss Function（分类问题举例）：
  
  Loss Function损失函数，是定义在训练集上的函数，用于衡量训练好的模型 $f (x)$ 在训练集上的效果。
  1. 衡量对一个点的损失：0-1损失
    $l(f,x,y)=l_f(x,y)=\begin{cases} 1,f(x)\neq y\\0,f(x)=y \end{cases}$
  2. 整个训练数据集的risk：Empirical Risk经验风险
    $R_n(f)=\frac{1}{n}\sum^n_{i=1}l_f(x_i,y_i)$
    
    每个点的损失函数求均值。
  3. True Risk在测试集以及未来数据上的risk
    $R(f)=E_{XY}[l_f(X,Y)]=\int_{X\times Y}l_fdP$
    具体到前面说的0-1损失，会有：
    $R(f)=E_{XY}[\chi_{f(X)\neq Y}]=P(f(X) \neq Y)$
    $\chi_A$ 表示事件 $A$ 的特征函数²，此时 Risk 也就是 $f (X)$ 和 $Y$ 不相等的概率。
    
    这样就出现了一个比较自然的衡量标准。
  4. $P$ 是数据背后真实的概率分布，不可知的；可以通过全体的一个样本Sample对 $P$ 估计。
  以上称为经验风险最小化算法（Empirical Risk Minimization,ERM）
- 放弃要求训练数据和测试数据来自同一个分布
但是如果训练数据的模型和测试数据的模型不相同但是“相差不大”的时候，是否仍然能进行学习呢？这就是 Domain Adaptation 所考虑的问题：如何来 formulate 两个模型之间的相似性，以及在满足什么样的相似性的情况下，该问题的 learnable 的，能达到什么样的 performance 等等。
- 完全不要求数据是 IID
除了放弃要求训练数据和测试数据来自同一个分布之外，还有更宽松的模型完全不要求数据是 IID 地采样自某个特定的概率分布。比如在 online learning 中就是如此，这使得模型更加宽松并且能应用到更加广泛的一类问题中，不过抛弃了概率分布之后也就无从谈及 expected loss 之类的概念了（因为“期望”的定义需要有概率分布的存在），所以关于 f 的衡量需要借助于其他的方式，比较常用的是 regret 。
Reference