A. 数学基础
微积分
线性代数
- 基本概念
- 标量
- 向量
- 矩阵
- 范数
- L1:向量绝对值之和
- L2:向量的长度
- LP(P趋于无穷):向量中最大元素的取值
- 内积
- 两个向量之间的相对位置:余弦相似度
- 线性空间
- 内积空间
- 内积空间
- 正交基/标准正交基
- 特征值和特征向量:矩阵特征值和特征向量的动态意义在于表示了变化的速度和方向。
概率论 + 统计学
运筹学
- 概述
- 最优化理论(optimization)研究的问题是判定给定目标函数的最大值(最小值)是否存在,并找到令目标函数取到最大值(最小值)的数值。如果把给定的目标函数看成连绵的山脉,最优化的过程就是判断顶峰的位置并找到到达顶峰路径的过程。
- 概念
- 凸集:在一个集合里面,任意两个点的连线还在这个集合里面
- 凸函数:函数上任意两点的连线,在函数的上方
- 基本问题
- 约束优化:拉格朗日乘子法 - 线性规划
- 无约束优化
- 梯度下降法
- 牛顿法
- 置信域方法:启发式算法
信息论
- 基本概念
- 信息熵
- 条件熵
- 信息增益
- I(X;Y)=H(Y)−H(Y|X)
- 在机器学习中,信息增益常常被用于分类特征的选择。对于给定的训练数据集 Y,H(Y) 表示在未给定任何特征时,对训练集进行分类的不确定性;H(Y|X)则表示了使用特征 X 对训练集 Y 进行分类的不确定性。
- 信息增益比
- KL 散度:KL 散度是描述两个概率分布 P 和 Q 之间的差异的一种方法
- 非负性
- 非对称性
- 最大熵原理
- 最大熵原理是确定随机变量统计特性时力图最符合客观情况的一种准则。对于一个未知的概率分布,最坏的情况就是它以等可能性取到每个可能的取值。这个时候的概率分布最均匀,也就是随机变量的随机程度最高,对它进行预测也就最困难。
- 衡量数据的混乱程度
- 方差
- 熵
- 基尼系数