加油❤🤞💕
文章目录
1 引言
1.1 基本概念
- 机器学习:从原始数据中提取模式的能力
机器学习算法的性能很大程度上依赖于给定数据的表示。 - 表示学习:使用机器学习来发掘表示自身,而不仅仅把表示映射到输出
- 深度学习:通过简单的表示来表达复杂表示,解决学习中的核心问题
1.2 深度学习的趋势
深度学习的成就在于强化学习领域的扩展。
2 线性代数
2.1 基本概念
- 张量:一个数组中的元素分布在若干维坐标的规则网络中
- 线性相关
- 线性无关:如果一组向量中的任意一个向量都不能表示成其他向量的线性组合
- 奇异的:列向量线性相关的方阵
2.2 范数
范数函数:是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域,范数是一个函数,是矢量空间内的所有矢量赋予非零的正长度或大小。半范数可以为非零的矢量赋予零长度。
范数是将向量映射到非负值的函数
欧几里得范数:p = 2
最大范数
2.3 特征分解
将矩阵分解成一组特征向量和特征值
N 维非零向量 v 是 N×N 的矩阵 A 的特征向量,当且仅当下式成立:
其中 λ 为一标量,称为 v 对应的特征值。也称 v 为特征值 λ 对应的特征向量。也即特征向量被施以线性变换 A 只会使向量伸长或缩短而其方向不被改变。
2.4 奇异值分解
将矩阵分解成奇异值和奇异向量
2.5 Moore-Penrose 伪逆
3 概率和信息论
4 数值计算
4.1 上溢和下溢
上溢:取无穷大
下溢:四舍五入取0,变成NaN;
4.2 病态条件
条件数:函数相对于输入的微小变化而变化的快慢程度。
4.3 基于梯度的优化算法
优化指的是改变x以最小化或最大化某个函数f(x)的任务。
最小化或最大化的函数称为目标函数或准则。
进行最小化时称为代价函数、损失函数或误差函数。
*x = arg min f(x)
临界点:梯度中所有元素为零的点
鞍点:既不是最小点也不是最大点
4.4 Hessian矩阵
黑塞矩阵(Hessian Matrix),又译作海森矩阵、海瑟矩阵、海塞矩阵等,是一个多元函数的二阶偏导数构成的方阵,描述了函数的局部曲率。黑塞矩阵最早于19世纪由德国数学家Ludwig Otto Hesse提出,并以其名字命名。黑塞矩阵常用于牛顿法解决优化问题,利用黑塞矩阵可判定多元函数的极值问题。在工程实际问题的优化设计中,所列的目标函数往往很复杂,为了使问题简化,常常将目标函数在某点邻域展开成泰勒多项式来逼近原函数,此时函数在某点泰勒展开式的矩阵形式中会涉及到黑塞矩阵。
一阶优化算法:使用梯度信息的优化算法,梯度下降
二阶最优算法:Hessian矩阵的优化算法,牛顿法
5 机器学习的基础
5.1 学习算法
从数据中学习的算法
- 常见的机器学习任务:
分类
输入缺失分类
回归
转录
机器翻译
结构化输出
异常检测
合成和采样
缺失值填补
去噪
密度值估计或概率质量函数估计
5.2 容量、过拟合和欠拟合
泛化:在先前未观测到的输入上表现良好的能力
决定机器学习算法效果是否好的因素:
- 降低训练误差
- 缩小训练误差和测试误差的差距
欠拟合 :模型不能在训练集上获得足够低的误差
过拟合:训练误差和测试误差之间的差距过大
5.3 决策树
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。
在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。