统计学习方法——统计学习的分类

  首先简单介绍一下统计学习:
  统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。其可以理解为计算机系统通过运用数据及统计方法提高系统性能的机器学习。现在我们谈论的机器学习,往往就是统计机器学习。
  下面进入正文

基本分类

  • 有监督学习
      监督学习和无监督学习的区别就是数据是否有标注。有标注的是监督学习,没有标注的是非监督学习。例如,做手写数字识别,0-9的图片会对应0-9数字来判断是否预测正确,而无监督学习则不会有这些判断是否正确的标注。
       监督学习大体可以分为三种情况:回归、分类和标注,输出变量为连续变量为回归,离散变量为分类,输出的是一个向量则为标注(例word2vec)。

  • 无监督学习
      无监督学习的本质是自己学习数据之中的规律和结构。例如聚类和降维。这些都是常见应用。

  • 强化学习
      强化学习是系统在与环境的互动之中学习最优行为策略的机器学习问题。其学习目标不是短期奖励的最大化而是长期累积奖励的最大化。
      强化学习一般基于马尔可夫决策过程:<S,A,P,r,γ>。S是有限状态的集合,A是有限状态的集合,P是计算状态转移概率的函数,r是奖励函数,其计算的是累计奖励。γ是计算累计奖励对后续奖励的衰变,故其在(0,1)。因为当前动作对后续影响是渐衰的。策略Π为根据当前状态S做出的行动A。
      强化学习就是根据状态价值函数(策略只考虑当前状态)或者动作价值函数(策略考虑状态和动作)学习一个策略Π使得累计奖励最大。

概率模型和非概率模型

概率模型和非概率模型的本质区别就是其内在结构是否可以表示成联合概率分布的形式。如马尔科夫链为概率模型,神经网络为非概率模型。

线性模型和非线性模型

其判别的依据y(x)是否是线性函数。线性模型可以是用曲线拟合样本,但是分类的决策边界一定是直线的,例如logistics模型区分是否为线性模型,主要是看一个乘法式子中自变量x前的系数w,如果w只影响一个x,那么此模型为线性模型。或者判断决策边界是否是线性的。

参数化和非参数化模型

依据模型训练所得参数维度是否固定,固定为参数化(如k-means),不固定为非参数化(如SVM)。一般来说,比较简单的问题为参数化,困难的为非参数化。

按算法分类

分为在线学习(边学习边预测)和批量学习(学习完了在预测)。

按技巧分类

贝叶斯和核方法。
此处要区分贝叶斯方法和极大似然估计。极大似然估计为频率学派贝叶斯方法为贝叶斯学派。频率学派认为参数固定,于是用已知数据去似然。贝叶斯学派认为参数也服从概率分布,且要根据先验知识。
例如:一种癌症,得了这个癌症的人被检测出为阳性的几率为90%,未得这种癌症的人被检测出阴性的几率为90%,而人群中得这种癌症的几率为1%,一个人被检测出阳性,问这个人得癌症的几率为多少?

假设 A 表示事件 “测出阳性”, B1 表示“得癌症”,B2 表示“未得癌症”,那么:
在这里插入图片描述
再来看一下联合概率:人群中检测为阳性并且得癌症的几率:
在这里插入图片描述
检测为阳性但未得癌症的概率:
在这里插入图片描述
下面开始贝叶斯的功力所在了:“怎样求出在检测出阳性的前提下得癌症的概率呢?”根据上面的结果,
在这里插入图片描述
这个问题中:人群中患癌症与否的概率是先验概率,先验概率是已知的,根据观测值:是否为阳性,来判断得癌症的后验概率。(此处示例引用链接https://blog.csdn.net/piaoxuezhong/article/details/53899639)

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值