机器学习 - 概览


(概述机器学习,且重点放在监督学习,而无监督学习与强化学习以后讨论)

  • 定义

    喜欢简练的表达,算是一个极简主义者,就像“奥卡姆剃刀原则”所说,“如无必要,勿增实体”。所以在众多的定义中我更欣赏这个:

    在学习领域中,不使用明确的编程而给予计算机学习的能力。

  • 类别

    根据在训练中使用数据或策略不同,有如下分类:

    • 监督学习:使用有标签(label)的数据;
    • 无监督学习:使用无标签的数据;
    • 半监督学习:同时使用以上两种数据,其中有标签的数据量较少;
    • 强化学习:根据每次学习后的反馈进而修改,进行下一次学习;

    有监督学习中的算法较丰富,无监督学习的算法大多与聚类有关,强化学习暂时还未深入学习,不太了解,但应用却很广泛,例如游戏,AlphaGo等,多用在情况较为复杂的场景中。

  • 监督学习

    形式 :监督学习的任务为学习一个模型,对这个模型给定输入预测相应的输出。
    模型的一般形式为 决策函数
    Y = f ( x ) Y = f(x) Y=f(x)
    条件概率分布
    P ( Y ∣ X ) P(Y|X) P(YX)


    根据所学的结果不同,对于监督学习可分为生成方法与判别方法,所学到的模型分别为生成模型和判别模型。模型通过方法学习得到。

    • 生成方法:
    1. 从已有的数据中利用先验概率,并 学习 联合概率分布 P(X,Y) ,而后求出 条件概率分布 P(Y|X) 作为预测的模型,称为生成模型;
    2. 之所以叫生成模型,是因为模型表示了给定输入X产生输出Y的 生成关系
    3. 生成模型包括但不限于:

      高斯混合模型
      隐马尔可夫模型
      朴素贝叶斯分类器
      ……

    • 判别方法:
    1. 判别方法则由数据 直接 学习决策函数 f(x) 或者条件概率分布P(Y|X) 作为预测模型,此模型称为判别模型;
    2. 判别方法关心的是对给定的输入X,应该预测什么样的输出Y。
    3. 判别模型包括但不限于:

      Logistic回归(LR)
      Linear回归
      支持向量机(SVM)
      条件随机场
      神经网络
      决策树
      随机森林
      感知器
      ……

    • 生成方法与判别方法对比
    1. 生成方法可还原出联合概率分布P(X,Y) ,而判别模型不能;
    2. 生成方法学习收敛速度更快,即当样本容量增加时,学到的模型可更快的收敛至真实模型;
    3. 当存在隐变量时,仍可用生成方法学习,而判别方法不行;
    4. 判别方法学的模型直接面对预测,往往学习的准确度较高;
    5. 判别模型可以对数据进行各种程度的抽象、定义特征并使用特征,因此可以简化学习问题。

    根据面向的问题不同,可分为分类问题、回归问题和标注问题。

    • 分类问题
    1. 在监督学习中,当输出变量Y的取值是有限个离散值时,预测问题则称为分类问题;
    2. 此时输入变量X可以是离散的,也可以是连续的;
    3. 所学的模型可称为分类器;
    4. 分类问题可分为 二分类 问题与 多分类 问题;
    5. 应用:例如银行判断是否贷款给一个客户;
    6. 应用于 分类问题的模型包括但不限于:

      K近邻(KNN)
      K均值(K-Means)
      感知机
      朴素贝叶斯(NB)
      决策树
      Logistic回归
      支持向量机
      Boosting
      贝叶斯网络
      神经网络(NN)
      ……

    • 回归问题
    1. 用于预测输入变量和输出变量之间的关系;
    2. 回归模型表示从输入变量到输出变量之间的映射函数;
    3. 回归问题等价于函数拟合:选择一条函数曲线,使其很好的拟合已知数据(拉格朗日插值法与此相似)且很好的预测未知数据;
    4. 应用:例如预测股票价格;
    5. 可应用于回归问题的模型包括但不限于:

      Lasso回归(L1正则化)
      Ridge回归(L2正则化)
      ElasticNet Regression(L1与L2正则一起使用)
      回归树
      ……

    • 标注问题
    1. 标注问题是一个监督学习问题,可以认为标注问题是分类问题的一个推广。标注问题是更复杂的结构预测问题的简单形式。
    2. 标注问题的输入是一个观测序列,输出的是标记序列或状态序列。
    3. 标注问题的目的在于学习一个模型,使它能够对观测序列给出标记序列作为预测。
    4. 需要注意的是,可能的标记个数是有限的,但其组合起来的标记序列的个数是依序列长度呈指数级增长的。
    5. 标注问题分为学习合和标注两个过程。学习过程是根据数据学习得到条件概率分布模型,标注过程是根据学到的模型对新的输入观测序列找到相应的输出标记序列。
    6. 可应用于标注问题的模型包括但不限于:

      条件随机场
      隐马尔科夫模型
      ……

  • 无监督学习

    无监督学习是在没有标签的情况下对数据进行类别划分。
    大部分无监督学习是使用聚类算法。
    无监督学习方法包括但不限于:

    规则划分
    KNN
    K-Means
    层次聚类
    密度聚类
    图论聚类
    网格聚类
    模型聚类
    ……


参考文献
[1]: 《统计学习方法》,李航,清华大学出版社,2012-3月第一版
[2]:《数据挖掘导论》,Pang-Ning Tan,Michael Steinbach,Vipin Kumar, 机械工业出版社,2010-9,英文版
[3]: 各种其他教学视频

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值