本系列文章仅为个人学习周志华老师西瓜书、吴恩达老师深度学习课程以及《机器学习实战》的学习笔记,不做任何商业传播用途!若发现有雷同,不是巧合。
示例(instance)没有结果,样例(example)有结果
样本(sample)既可以指数据集,也可以指单独一个样例
属性(attribute)/特征(feature)指颜色、大小等名词;属性值指属性的取值
属性空间/样本空间/输入空间
标记空间/输出空间
模型解释了要判断的结果的规律→假设(hypothesis);真相(ground-truth):真实的结果;学习器:学习算法在给定数据和参数设置的结果
机器学习定义:计算机程序从经验E中学习,解决某一问题T,进行某一性能度量P,通过P测定在T上的表现因经验E而提高…
机器学习可以看成建立预测模型,根据预测的结果可以分为:
- 分类——预测值离散
- 回归——预测值连续
主要类型:
监督学习/无监督学习/半监督学习/强化学习;在线学习/批量学习;基于实例的学习/基于模型的学习
分类一(是否需要标签):
-
监督学习:给算法一个数据集,其中包含“正确答案”,算法的目的是找到更多的答案。
- 回归问题:预测连续的数值输出。
- 分类问题:预测离散的输出。
🌰k-近邻算法、线性回归、逻辑回归、支持向量机、决策树和随机森林、部分神经网络
-
无监督学习:数据集没有任何标签;没有明确目的的训练方式,无法提前知道结果是什么,本质上是一个统计手段。几乎无法量化效果如何。
-
聚类算法:自动划分为多个簇
🌰k-均值算法、DBSCAN、分层聚类分析(HCA)
-
可视化和降维
🌰主成分分析(PCA)、核主成分分析、局部线性嵌入(LLE)、t-分布随机近邻嵌入(t-SNE)
-
密度估计
-
异常检测和新颖性检测
🌰单类SVM、孤立森林
-
关联规则学习:挖掘大量数据,发现属性之间的关系【例如超市购物时买火锅食材的也倾向于买火锅料,便可以把几样商品放在一起】
🌰Apriori、Eclat
-
-
半监督学习:处理部分已标记的数据【例如相册自动识别人物,仅需给每个人一个标签,就可以给每张照片的每个人命名】
-
强化学习:智能体观察环境,做出选择,执行动作,并获得回报。自行学习最好的策略(在特定情况下选择的动作),从而随着时间的推移获得最大的回报。
分类二(是否可以从传入的数据流中进行增量学习):
- 批量学习:必须使用所有可用数据进行训练,通常离线完成,需要耗费大量的计算资源。
- 在线学习:循序渐进地给系统提供训练数据,逐步累积学习成果。需要接收持续的数据流,同时对数据流的变化做出快速或自主的反应。新的数据实例一旦经过在线学习系统的学习,就不再需要,可以节省大量的空间。一个重要的参数是学习率(适应不断变化的数据的速度)。
分类三(泛化方法):
- 基于实例的学习:系统学习示例,然后通过使用相似度度量来比较新实例和已经学习的实例,从而泛化新实例。(例如度量新邮件和垃圾邮件相同单词的个数)
- 基于模型的学习:构建示例集的模型,使用模型进行预测。
泛化能力:学得模型适用于新样本的能力,例如错误率低、精度高,具有强泛化能力的模型能很好地适用于整个样本空间。其实就是PAC模型中的$\epsilon$能达到多少。
分类四(归纳过程):
- 归纳induction学习:从特殊到一般的泛化过程,即从具体的事实归纳出一般性规律
- 归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设(而非标记)的偏好,任何一个有效的机器学习算法必有其偏好。【奥卡姆剃刀:若非必要,勿增实体】学习算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法的性能。
- NFL定理:一个算法若在某些问题上比另一个算法好,必存在另一些问题比好。前提是所有问题出现的机会相同或者所有问题同等重要。
- 演绎deduction学习:从一般到特殊的特化过程,即从基本原理推衍出具体情况。