机器学习第一课

cherryc_

已于 2024-06-25 19:36:26 修改

阅读量347

点赞数 7

分类专栏：机器学习文章标签：机器学习人工智能

于 2023-11-29 00:44:35 首次发布

本文链接：https://blog.csdn.net/cherryc_/article/details/134680212

版权

2 篇文章 0 订阅

订阅专栏

本系列文章仅为个人学习周志华老师西瓜书、吴恩达老师深度学习课程以及《机器学习实战》的学习笔记，不做任何商业传播用途！若发现有雷同，不是巧合。

示例（instance）没有结果，样例（example）有结果

样本（sample）既可以指数据集，也可以指单独一个样例

属性（attribute）/特征（feature）指颜色、大小等名词；属性值指属性的取值

属性空间/样本空间/输入空间

标记空间/输出空间

模型解释了要判断的结果的规律→假设（hypothesis）；真相（ground-truth）：真实的结果；学习器：学习算法在给定数据和参数设置的结果

机器学习定义：计算机程序从经验E中学习，解决某一问题T，进行某一性能度量P，通过P测定在T上的表现因经验E而提高…

机器学习可以看成建立预测模型，根据预测的结果可以分为：

主要类型：

监督学习/无监督学习/半监督学习/强化学习；在线学习/批量学习；基于实例的学习/基于模型的学习

分类一（是否需要标签）：

监督学习：给算法一个数据集，其中包含“正确答案”，算法的目的是找到更多的答案。
- 回归问题：预测连续的数值输出。
- 分类问题：预测离散的输出。
🌰k-近邻算法、线性回归、逻辑回归、支持向量机、决策树和随机森林、部分神经网络
无监督学习：数据集没有任何标签；没有明确目的的训练方式，无法提前知道结果是什么，本质上是一个统计手段。几乎无法量化效果如何。
- 聚类算法：自动划分为多个簇
  
  🌰k-均值算法、DBSCAN、分层聚类分析（HCA）
- 可视化和降维
  
  🌰主成分分析（PCA）、核主成分分析、局部线性嵌入（LLE）、t-分布随机近邻嵌入（t-SNE）
- 密度估计
- 异常检测和新颖性检测
  
  🌰单类SVM、孤立森林
- 关联规则学习：挖掘大量数据，发现属性之间的关系【例如超市购物时买火锅食材的也倾向于买火锅料，便可以把几样商品放在一起】
  
  🌰Apriori、Eclat
半监督学习：处理部分已标记的数据【例如相册自动识别人物，仅需给每个人一个标签，就可以给每张照片的每个人命名】
强化学习：智能体观察环境，做出选择，执行动作，并获得回报。自行学习最好的策略（在特定情况下选择的动作），从而随着时间的推移获得最大的回报。

分类二（是否可以从传入的数据流中进行增量学习）：

批量学习：必须使用所有可用数据进行训练，通常离线完成，需要耗费大量的计算资源。
在线学习：循序渐进地给系统提供训练数据，逐步累积学习成果。需要接收持续的数据流，同时对数据流的变化做出快速或自主的反应。新的数据实例一旦经过在线学习系统的学习，就不再需要，可以节省大量的空间。一个重要的参数是学习率（适应不断变化的数据的速度）。

分类三（泛化方法）：

泛化能力：学得模型适用于新样本的能力，例如错误率低、精度高，具有强泛化能力的模型能很好地适用于整个样本空间。其实就是PAC模型中的$\epsilon$能达到多少。

分类四（归纳过程）：

归纳induction学习：从特殊到一般的泛化过程，即从具体的事实归纳出一般性规律
- 归纳偏好（inductive bias）：机器学习算法在学习过程中对某种类型假设（而非标记）的偏好，任何一个有效的机器学习算法必有其偏好。【奥卡姆剃刀：若非必要，勿增实体】学习算法的归纳偏好是否与问题本身匹配，大多数时候直接决定了算法的性能。
- NFL定理：一个算法 $L_a$ 若在某些问题上比另一个算法 $L_b$ 好，必存在另一些问题 $L_b$ 比 $L_a$ 好。前提是所有问题出现的机会相同或者所有问题同等重要。
演绎deduction学习：从一般到特殊的特化过程，即从基本原理推衍出具体情况。