第一章 绪论
1. 机器学习 的 概念
研究关于 “学习算法” (一类能从数据中学习出其背后潜在规律的算法) 的一门学科。
PS:深度学习为 “神经网络类” 的学习算法,是机器学习的 “子集”。
需深刻理解:更形式化的解释:已知 X 及 Y,求:f(X),即为:求 X 与 Y 间的映射关系;这使得计算机研究从 “方法驱动” 变为了 “数据驱动”。
2. 进阶学习资料
周志华老师的《机器学习理论导引》
3. 假设空间、版本空间 的 概念(需理解)
假设空间:假设能够拟合训练集的模型构成 的 集合
版本空间:所有能够拟合训练集的模型构成 的 集合
4. 算法、模型 的 概念
算法:从数据中习得 “模型/函数” 的具体方法
模型:“算法” 的产出结果
5. 样本、标记 的 概念
样本:样本对象 = 特征 + 标签
标记:标签
6. 大部分 神经网络 的 共同特征
1. 交替使用线性处理单元及非线性处理单元,被称为 “层”;
2. 使用链式法则(即:反向传播)更新网络的参数;
3. 基于通用近似定理:由包含非线性激活函数(如:Tanh、ReLU、Sigmoid激活函数)的隐藏层构成的前馈神经网络能够近似任何从一个有限维空间到另一个有限维空间的Borel可测函数。
换言之,在理想情况下,研究者们可以通过任意一个三层及三层以上的神经网络结构拟合并逼近现实生活中的大多数函数问题。
7. 从“表征学习”角度理解深度学习
“表征学习” 关注 “特征工程”;而 “深度学习” 是 具有多级表示 的 表征学习方法(或:更复合的函数)
8. 如何理解:深度学习架构 的 结构越深,其 表征能力 越强?
eg. 线性决策边界 可通过组合获取 表征能力更强的非线性决策边界;而更深的网络结构,可利用非线性决策边界组合 获得 更复杂的非线性决策边界。
9. 如何理解:数据决定模型的上限,而更合适的算法将使模型更逼近该上限?
数据决定模型的上限:数据量(泛化性)、数据质量(特征工程);
更合适的算法将使模型更逼近该上限:模型不分高低贵贱,视具体情况而定,效果更好则更逼近真相。
10. 什么是 “独立同分布”(I.I.D.) ?
指:实验样本独立地从同一数据集采样获得;服从同一分布、且互不影响。
11. 如何理解 “无监督任务” 及 “有监督任务” ?
监督学习的目标是学习 “映射函数”:从输入特征至输出标签;无监督学习内模型通过分析数据间的关系以发现模式。目标是识别数据中的潜在结构,如:聚类、降维、异常检测。
第二章 基础模型汇总
线性回归
1. 回归 及 分类 的区别
“分类” 输出值 “离散”,“回归” 输出值 “连续”;“分类” 本质目的是寻求类的分界面;“回归” 本质目的是寻求拟合函数;
(如:线性回归 — 回归,输出值连续;softmax 回归 — 分类,输出值离散)
2. 线性回归 的 简明实现(本质:最小二乘法)
# in_features & out_features:输入(出)特征形状;bias:偏置项(默认为True)
torch.nn.Linear (in_features, out_features, bias=True, device=None, dtype=None)
3. 线性回归 的 原理讲解
已知:train_x,train_y;寻求最优拟合函数所对应的最优参数:Y = F(X) = WX + b 中的 W 及 b;
使得损失值:Loss (F(train_x), train_y) 最低
4. 数学推导
4.1 一元 线性回归损失函数、目标函数(最小二乘法、极大似然估计,二者等价)
4.2 极大似然估计
具体实例:
更通俗的解释:首先已知数据值,假设其分布;然后求具备最大可能性的分布的参数
4.3 求解:一元 线性回归背景下的 argmin (w, b) E (w, b)
4.3.1 证明:argmin (w, b) E (w, b) 为关于 w 和 b 的 凸函数:
4.3.2 根据凸函数性质,求解:argmin (w, b) E (w, b):