pluskid机器学习博客学习笔记(1)

网上讲机器学习的资料很多,pluskid的博客是第一个让我眼前一亮的,本次记录:

  • 学习理论Learning Theory

    • PAC(Probably Approximately Correct,Leslie Valiant提出)可能近似正确。催生了Boosting算法
    • SLT(Statistical Learning Theary,Vapnik提出),催生了SVM
  • Andrew Ng

    1. 开创在线机器学习课程 ml-class
    2. 无人驾驶直升机
    3. LittleDog

    robot/agent 相关的东西和机器学习的一大交集就是一个叫做增强学习 (Reinforcement Learning, RL) 的模型,不过传统的 RL 算法通常都有相当 aggressive 的“探索”环境的过程。极端的情况下某个高难度的“探索性”步骤有可能会使直升机 crash 掉。为了解决这个问题,Andrew Ng 提出了所谓的学徒学习 (Apprenticeship learning),通过人类示范的方法来引导机器进行学习。

  • 统计分析与机器学习

    • 统计分析里可能通常都会假设数据确实是满足某个具体的带参数的分布,从而去研究如何更精确更健壮地估计对应的参数的问题(例如试验设计);
    • 机器学习则通常不会假设数据的真实分布是符合某个参数的概率模型的,或者甚至完全不做任何限制,而在这样的背景下,普通的最大似然是否真的可行呢?要达到给定的精读需要多少数据点、多少计算量?这些才是机器学习所关心的问题。
  • 监督学习

    • 常规意义上
    • 假定 X   Y X \, Y XY上存在一个联合分布1 (再严苛一点,只在 X X X上存在分布 P P P,对应的 Y = h ( X ) + ε Y=h(X) + \varepsilon Y=h(X)+ε)
    • 监督学习的训练集和测试集要求独立同分布 (IID),这样训练集训练出来的模型才有可能用来预测测试集。
    1. 目标是通过训练集求得一个 f f f,使得 f ( x ) f(x) f(x)可以在测试集上很好的预测 y y y

    2. 为了衡量学习质量(假设 Y = W X Y=WX Y=WX,权值矩阵 W W W)好坏,定义一个Loss Function(分类问题举例):

      Loss Function损失函数,是定义在训练集上的函数,用于衡量训练好的模型 f ( x ) f(x) f(x)在训练集上的效果。

      1. 衡量对一个点的损失:0-1损失
        l ( f , x , y ) = l f ( x , y ) = { 1 , f ( x ) ≠ y 0 , f ( x ) = y l(f,x,y)=l_f(x,y)=\begin{cases} 1,f(x)\neq y\\0,f(x)=y \end{cases} l(f,x,y)=lf(x,y)={1,f(x)̸=y0,f(x)=y

      2. 整个训练数据集的risk:Empirical Risk经验风险
        R n ( f ) = 1 n ∑ i = 1 n l f ( x i , y i ) R_n(f)=\frac{1}{n}\sum^n_{i=1}l_f(x_i,y_i) Rn(f)=n1i=1nlf(xi,yi)

        每个点的损失函数求均值。

      3. True Risk在测试集以及未来数据上的risk
        R ( f ) = E X Y [ l f ( X , Y ) ] = ∫ X × Y l f d P R(f)=E_{XY}[l_f(X,Y)]=\int_{X\times Y}l_fdP R(f)=EXY[lf(X,Y)]=X×YlfdP
        具体到前面说的0-1损失,会有:
        R ( f ) = E X Y [ χ f ( X ) ≠ Y ] = P ( f ( X ) ≠ Y ) R(f)=E_{XY}[\chi_{f(X)\neq Y}]=P(f(X) \neq Y) R(f)=EXY[χf(X)̸=Y]=P(f(X)̸=Y)
        χ A \chi_A χA表示事件 A A A的特征函数2,此时 Risk 也就是 f ( X ) f(X) f(X) Y Y Y不相等的概率。

        这样就出现了一个比较自然的衡量标准。

      4. P P P是数据背后真实的概率分布,不可知的;可以通过全体的一个样本Sample对 P P P估计。

      以上称为经验风险最小化算法(Empirical Risk Minimization,ERM)

    • 放弃要求训练数据和测试数据来自同一个分布

    但是如果训练数据的模型和测试数据的模型不相同但是“相差不大”的时候,是否仍然能进行学习呢?这就是 Domain Adaptation 所考虑的问题:如何来 formulate 两个模型之间的相似性,以及在满足什么样的相似性的情况下,该问题的 learnable 的,能达到什么样的 performance 等等。

    • 完全不要求数据是 IID

    除了放弃要求训练数据和测试数据来自同一个分布之外,还有更宽松的模型完全不要求数据是 IID 地采样自某个特定的概率分布。比如在 online learning 中就是如此,这使得模型更加宽松并且能应用到更加广泛的一类问题中,不过抛弃了概率分布之后也就无从谈及 expected loss 之类的概念了(因为“期望”的定义需要有概率分布的存在),所以关于 f 的衡量需要借助于其他的方式,比较常用的是 regret 。

  • Reference


  1. 联合分布的本质是描述世界的哪个环节 ↩︎

  2. 特征函数解释了世界的哪个环节? ↩︎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值