[统计学习方法]-统计学习分类

统计学习方法栏目是对李航老师写的统计学习方法第二版的学习记录,里面有一些自己的感悟,写出来供大家参考。

监督学习

本质

监督学习的本质是学习输入到输出的映射关系

空间

空间主要指实数集合 R n R^n Rn,其中 n n n指的是空间的维度。例如在面上 n = 2 n=2 n=2。监督学习中,分为输入空间,特征空间和输出空间,一般情况下输入空间要远远大于输出空间,因为我们往往只能从多个信息中综合得到一个结果,而很难从一个信息中得到多个结果。输入空间和特征空间一般没有区别,但对于某些需要进行特征处理的matedata,则两者不同,一般所说的统计学模型都是建立在特征空间之上的。

预测任务分类

对于监督学习,预测任务可以分为回归问题和分类问题,本质在于其输出变量是否为离散的。回归问题本质是学习从一条拟合函数对输入和输出进行映射,是对于连续输入和连续输出来说的(逻辑回归),而分类问题输出变量是有限个值(SVM),分类问题还可以推广到标注问题,即对一个输入进行分类的序列输出(HMM)。

学习方法

监督学习要求训练集和测试集(这里不考虑验证集)满足独立同分布,学习是通过训练集中的数据对模型空间(所有从输入到输出的模型集合)中的模型进行不断优化,使其符合输入与输出的存在的联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)(我们认为他是一定存在的,只是未知罢了,要不然监督学习无从谈起,这是一个重要假设)。最后学习的模型便是为条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)或者决策函数 Y = f ( X ) Y=f(X) Y=f(X)(具体模型的输出形式由模型选取的方法决定)

无监督学习

本质

无监督学习的本质是学习数据内部潜在的结构或统计规律

学习方法

无监督学习主要对数据进行聚类,降维或概率估计。我们用 Z Z Z来表示数据中的隐藏结构空间,我们的学习目的是
z = g ( x ) , 硬 聚 类 模 型 ( 聚 类 , 降 维 ) P ( z ∣ x ) , 软 聚 类 模 型 P ( x ∣ z ) , 概 率 估 计 ( 概 率 图 模 型 ) \begin{aligned} &z=g(x),硬聚类模型(聚类,降维) \\&P(z|x),软聚类模型 \\&P(x|z),概率估计(概率图模型)\end{aligned} z=g(x)P(zx)P(xz)
这三个中的一个

强化学习

本质

强化学习的本质是学习最优的序贯策略

学习方法

强化学习利用马尔可夫性质(每个状态只由上个状态和上个状态下采取的动作决定),不断进行试错,以学习如何在给定状态下采取何种策略,以获取最大奖励(这种奖励往往是长期的,而非短期受益)。各种那个资料对强化学习的随机过程表述不同,为了统一,本文采用李航老师书中的马尔可夫决策过程(Markov decision process,MDP),来代替强化学习,强化学习的随机过程由五元数组给出 < S , A , P , r , γ > <S,A,P,r,\gamma> <S,A,P,r,γ>组成,其中:

  • S S S代表有限个状态的集合state
  • A A A代表有限个动作的集合action
  • P P P代表状态转移概率函数transition probability
    P ( s ′ ∣ S , a ) = P ( S t + 1 = s ′ ∣ s t = s , a t = a ) P(s'|S,a)=P(S_{t+1}=s'|s_t=s,a_t=a) P(sS,a)=P(St+1=sst=s,at=a)
    t t t步的时候,状态为 s s s时,采取动作 a a a,状态由 s s s转变为 s ′ s' s的概率大小
  • r r r指奖励函数reward function
    r ( s , a ) = E ( r t + 1 ∣ S t = s , a t = a ) r(s,a)=E(r_{t+1}|S_t=s,a_t=a) r(s,a)=E(rt+1St=s,at=a)
    t t t步的时候,状态为 s s s,采取动作 a a a所产生奖励的期望,由于产生的奖励会在采取动作 a a a之后才能给出因此为 r t + 1 r_{t+1} rt+1
  • γ \gamma γ为衰减系数,取值在0到1之间,主要是对未来的奖励打折(不确定性)

强化学习的本质是发现最优策略,其中策略的定义为:
π ( a ∣ s ) = P ( a t = a ∣ s t = s ) \pi(a|s)=P(a_t=a|s_t=s) π(as)=P(at=ast=s)
每个状态的价值函数:
V ( s ) = E ( r t + 1 + γ r t + 2 + γ 2 r t + 3 . . . ∣ s t = s ) V(s)=E(r_{t+1}+\gamma r_{t+2}+\gamma ^2r_{t+3}...|s_t=s) V(s)=E(rt+1+γrt+2+γ2rt+3...st=s)
价值函数是用来定义最优策略,是强化学习的优化函数,即到底什么样的策略算好策略,价值函数较高的策略是好策略

第一次写博客,有不对的地方,欢迎大家留言多多指教

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值