机器学习第一课

本系列文章仅为个人学习周志华老师西瓜书、吴恩达老师深度学习课程以及《机器学习实战》的学习笔记,不做任何商业传播用途!若发现有雷同,不是巧合。 

示例(instance)没有结果,样例(example)有结果

样本(sample)既可以指数据集,也可以指单独一个样例

属性(attribute)/特征(feature)指颜色、大小等名词;属性值指属性的取值

属性空间/样本空间/输入空间

标记空间/输出空间

模型解释了要判断的结果的规律→假设(hypothesis);真相(ground-truth):真实的结果;学习器:学习算法在给定数据和参数设置的结果 

机器学习定义:计算机程序从经验E中学习,解决某一问题T,进行某一性能度量P,通过P测定在T上的表现因经验E而提高…

机器学习可以看成建立预测模型,根据预测的结果可以分为:

  • 分类——预测值离散
  • 回归——预测值连续

主要类型:

监督学习/无监督学习/半监督学习/强化学习;在线学习/批量学习;基于实例的学习/基于模型的学习

分类一(是否需要标签):

  • 监督学习:给算法一个数据集,其中包含“正确答案”,算法的目的是找到更多的答案。

    • 回归问题:预测连续的数值输出。
    • 分类问题:预测离散的输出。

    🌰k-近邻算法、线性回归、逻辑回归、支持向量机、决策树和随机森林、部分神经网络

  • 无监督学习:数据集没有任何标签;没有明确目的的训练方式,无法提前知道结果是什么,本质上是一个统计手段。几乎无法量化效果如何。

    • 聚类算法:自动划分为多个簇

      🌰k-均值算法、DBSCAN、分层聚类分析(HCA)

    • 可视化和降维

      🌰主成分分析(PCA)、核主成分分析、局部线性嵌入(LLE)、t-分布随机近邻嵌入(t-SNE)

    • 密度估计

    • 异常检测和新颖性检测

      🌰单类SVM、孤立森林

    • 关联规则学习:挖掘大量数据,发现属性之间的关系【例如超市购物时买火锅食材的也倾向于买火锅料,便可以把几样商品放在一起】

      🌰Apriori、Eclat

  • 半监督学习:处理部分已标记的数据【例如相册自动识别人物,仅需给每个人一个标签,就可以给每张照片的每个人命名】

  • 强化学习:智能体观察环境,做出选择,执行动作,并获得回报。自行学习最好的策略(在特定情况下选择的动作),从而随着时间的推移获得最大的回报。

分类二(是否可以从传入的数据流中进行增量学习):

  • 批量学习:必须使用所有可用数据进行训练,通常离线完成,需要耗费大量的计算资源。
  • 在线学习:循序渐进地给系统提供训练数据,逐步累积学习成果。需要接收持续的数据流,同时对数据流的变化做出快速或自主的反应。新的数据实例一旦经过在线学习系统的学习,就不再需要,可以节省大量的空间。一个重要的参数是学习率(适应不断变化的数据的速度)。

分类三(泛化方法):

  • 基于实例的学习:系统学习示例,然后通过使用相似度度量来比较新实例和已经学习的实例,从而泛化新实例。(例如度量新邮件和垃圾邮件相同单词的个数)
  • 基于模型的学习:构建示例集的模型,使用模型进行预测。

泛化能力:学得模型适用于新样本的能力,例如错误率低、精度高,具有强泛化能力的模型能很好地适用于整个样本空间。其实就是PAC模型中的$\epsilon$能达到多少。

分类四(归纳过程):

  • 归纳induction学习:从特殊到一般的泛化过程,即从具体的事实归纳出一般性规律
    • 归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设(而非标记)的偏好,任何一个有效的机器学习算法必有其偏好。【奥卡姆剃刀:若非必要,勿增实体】学习算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法的性能。
    • NFL定理:一个算法L_a若在某些问题上比另一个算法L_b好,必存在另一些问题L_bL_a好。前提是所有问题出现的机会相同或者所有问题同等重要。
  • 演绎deduction学习:从一般到特殊的特化过程,即从基本原理推衍出具体情况。

  • 7
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值