* 进程和线程:进程和线程都是一个时间段的描述,是 CPU 工作时间段的描述,不过是颗粒大小不同。进程就是包换上下文切换的程序执行时间总和 = CPU 加载上下文 + CPU 执行 + CPU 保存上下文。线程是共享了进程的上下文环境的更为细小的 CPU 时间段。
*
判别式模型和生成式模型:
1.
判别式模型直接学习决策函数 f(X) 或条件概率分布 P(Y|X) 作为预测的模型。往往准确率更高,并且可以简化学习问题。如 k 近邻法/感知机/决策树/最大熵模型/ Logistic 回归/线性判别分析 ( LDA ) /支持向量机 ( SVM ) / Boosting /条件随机场算法 ( CRF ) /线性回归/神经网络
2.
生成式模型由数据学习联合概率分布 P(X,Y),然后由 P(Y|X)=P(X,Y)/P(X) 求出条件概率分布作为预测的模型,即生成模型。当存在隐变量时只能用生成方法学习。如混合高斯模型和其他混合模型/隐马尔可夫模型 ( HMM ) /朴素贝叶斯/依赖贝叶斯 ( AODE ) / LDA 文档主题生成模型。
*
概率质量函数,概率密度函数,累积分布函数:
1.
概率质量函数 ( probability mass function,PMF ) 是离散随机变量在各特定取值上的概率。
2.
概率密度函数 ( probability density function,PDF ) 是对 连续随机变量 定义的,本身不是概率,只有对连续随机变量的取值进行积分后才是概率。
3.
累积分布函数 ( cumulative distribution function,CDF ) 能完整描述一个实数随机变量 X 的概率分布,是概率密度函数的积分。对於所有实数 x,与 pdf 相对。
*
极大似然估计:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
*
最小二乘法:二乘的英文是 least square,找一个 ( 组 ) 估计值,使得实际值与估计值之差的平方加总之后的最小。求解方式是对参数求偏导,令偏导为0即可。样本量小时速度快。
*
梯度下降法:负梯度方向是函数值下降最快的方向,每次更新值都等于原值加学习率 ( 步长 ) 乘损失函数的梯度。每次都试一个步长看会不会下降一定的程度,如果没有的话就按比例减小步长。不断应用该公式直到收敛,可以得到局部最小值。初始值的不同组合可以得到不同局部最小值,在最优点时会有震荡。
1.
批量梯度下降 ( BGD ):每次都使用所有的 m 个样本来更新,容易找到全局最优解,但是 m 较大时速度较慢。
2.
随机梯度下降 ( SGD ):每次只使用一个样本来更新,训练速度快,但是噪音较多,不容易找到全局最优解,以损失很小的一部分精确度和增加一定数量的迭代次数为代价,换取了总体的优化效率的提升。注意控制步长缩小,减少震荡。
3.
小批量梯度下降 ( MBGD ):每次使用一部分样本来更新。
*
牛顿法:牛顿法是二次收敛,因此收敛速度快。从几何上看是每次用一个二次曲面来拟合当前所处位置的局部曲面,而梯度下降法是用一个平面来拟合。
红色的是牛顿法的迭代路径,绿色的是梯度下降法的迭代路径。牛顿法起始点不能离极小点太远,否则很可能不会拟合。
1.
黑塞矩阵是由目标函数 f(x) 在点 X 处的二阶偏导数组成的 n*n 阶对称矩阵。
2.
牛顿法:将 f(x) 在 x(k) 附近进行二阶泰勒展开:
其中,gk 是 f(x) 的梯度向量在 x(k) 的值,H(x(k)) 是 f(x) 的黑塞矩阵在点 x(k) 的值。牛顿法利用极小点的必要条件 f(x) 处的梯度为0,每次迭代中从点 x(k) 开始,假设,对二阶泰勒展开求偏导有,代入得到,即,以此为迭代公式就是牛顿法。
*
拟牛顿法:用一个 n 阶正定矩阵 Gk=G(x(k)) 来近似代替黑塞矩阵的逆矩阵就是拟牛顿法的基本思想。在牛顿法中黑塞矩阵满足的条件如下:,令,则有,称为拟牛顿条件。根据选择 Gk 方法的不同有多种具体实现方法。
1.
DFP 算法:假设每一步,为使 Gk+1 满足拟牛顿条件,可使 Pk 和 Qk 满足,,例如取,,就得到迭代公式
2.
BFGS 算法:最流行的拟牛顿算法。考虑用 Bk 逼近黑塞矩阵,此时相应的拟牛顿条件是,假设每一步,则 Pk 和 Qk 满足,,类似得到迭代公式
*
先验概率和后验概率:
1.
先验概率就是事情发生前的预测概率。
2.
后验概率是一种条件概率,它限定了事件为隐变量取值,而条件为观测结果。一般的条件概率,条件和事件可以是任意的。
3.
贝叶斯公式 P(y|x) = ( P(x|y) * P(y) ) / P(x) 中,P(y|x) 是后验概率,P(x|y) 是条件概率,P(y) 是先验概率。
*
偏差,方差,噪声:
1.
偏差:度量了学习算法的期望预测和真实结果偏离程度。
2.
方差:度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。
3.
噪声:可以认为是数据自身的波动性,表达了目前任何学习算法所能达到泛化误差的下限。
4.
泛化误差可以分解为偏差、方差与噪声之和。
*
对偶原理:一个优化问题可以从主问题和对偶问题两个方面考虑。在推导对偶问题时,通过将拉格朗日函数对 x 求导并使导数为0来获得对偶函数。对偶函数给出了主问题最优解的下界,因此对偶问题一般是凸问题,那么只需求解对偶函数的最优解就可以了。
*
KKT 条件:通常我们要求解的最优化条件有如下三种:
1.
无约束优化问题:通常使用求导,使导数为零,求解候选最优值。
2.
有等式约束的优化问题:通常使用拉格朗日乘子法,即把等式约束用拉格朗日乘子和优化问题合并为一个式子,通过对各个变量求导使其为零,求解候选最优值。拉格朗日乘数法其实是 KKT 条件在等式约束优化问题的简化版。
3.
有不等式约束的优化问题:通常使用 KKT 条件。即把不等式约束,等式约束和优化问题合并为一个式子。假设有多个等式约束 h(x) 和不等式约束 g(x)
则不等式约束引入的KKT条件如下:
实质是最优解在 g(x)<0 区域内时,约束条件不起作用,等价于对 μ 置零然后对原函数的偏导数置零;当 g(x)=0 时与情况2相近。结合两种情况,那么只需要使 L 对 x 求导为零,使 h(x) 为零,使 μg(x) 为零三式即可求解候选最优值。
*
性能度量:
1.
准确度,最常用,但在数据集不平衡的情况下不好。
2.
Precision ( 精确度/查准率 ):P=TP/(TP+FP)
3.
Recall ( 召回率/查全率 ):R=TP/(TP+FN)
4.
Fβ 度量:,当 β=1 时退化为 F1 度量,是精确率和召回率的调和均值。
5.
TPR ( 真正例率 ):TPR=TP/(TP+FN)
6.
FPR ( 假正例率 ):FPR=FP/(TN+FP)
7.
PR 曲线:纵轴为 Precision,横轴为 Recall,一般使用平衡点 ( BEP,即 Precsion=Recall 的点 ) 作为衡量标准。
8.
ROC ( 接受者操作特征 ) 曲线:纵轴为 TRP,横轴为 FPR,在绘图时将分类阈值依次设为每个样例的预测值,再连接各点。ROC 曲线围住的面积称为 AOC,AOC 越大则学习器性能越好。
*
损失函数和风险函数:
1.
损失函数度量模型一次预测的好坏。常用的损失函数有:0-1损失函数,平方损失函数,绝对损失函数,对数似然损失函数。
2.
损失函数的期望是理论上模型关于联合分布 P(X,Y) 的平均意义下的损失,称为风险函数,也叫期望风险。但是联合分布是未知的,期望风险不能直接计算。
3.
当样本容量 N 趋于无穷时经验风险趋于期望风险,但现实中训练样本数目有限。
*
经验风险最小化和结构风险最小化:
1.
模型关于训练数据集的平均损失称为经验风险。经验风险最小化的策略就是最小化经验风险。当样本数量足够大时学习效果较好。比如当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。但是当样本容量很小时会出现过拟合。
2.
结构风险最小化等于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项。比如当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计。
*
过拟合是指学习时选择的模型所包含的参数过多,以致于对已知数据预测得很好,但对未知数据预测很差的现象。模型选择旨在避免过拟合并提高模型的预测能力。
*
正则化是模型选择的典型方法。正则化项一般是模型复杂度的单调递增函数,比如模型参数向量的范数。
*
交叉验证是另一常用的模型选择方法,可分为简单交叉验证,K 折交叉验证,留一交叉验证等。
二、感知机
感知机是二类分类的线性模型,属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面。是神经网络和支持向量机的基础。
*
模型:,w 叫作权值向量,b 叫做偏置,sign 是符号函数。
*
感知机的几何解释:wx+b 对应于特征空间中的一个分离超平面 S,其中 w 是 S 的法向量,b 是 S 的截距。S 将特征空间划分为两个部分,位于两个部分的点分别被分为正负两类。
*
策略:假设训练数据集是线性可分的,感知机的损失函数是误分类点到超平面 S 的总距离。因为误分类点到超平面S的距离是,且对于误分类的数据来说,总有成立,因此不考虑 1/||w||,就得到感知机的损失函数:,其中 M 是误分类点的集合。感知机学习的策略就是选取使损失函数最小的模型参数。
*
算法:感知机的最优化方法采用随机梯度下降法。首先任意选取一个超平面 w0,b0,然后不断地极小化目标函数。在极小化过程中一次随机选取一个误分类点更新 w,b,直到损失函数为0。
其中 η 表示步长。该算法的直观解释是:当一个点被误分类,就调整 w,b 使分离超平面向该误分类点接近。感知机的解可以不同。
*
算法的收敛性:经过有限次迭代可以将线性可分训练集完全正确划分开。
*
对偶形式:假设原始形式中的 w0 和 b0 均为0,设逐步修改 w 和 b 共 n 次,令 a=nη,最后学习到的 w,b 可以表示为
那么对偶算法就变为设初始 a 和 b 均为0,每次选取数据更新 a 和 b 直至没有误分类点为止。对偶形式的意义在于可以将训练集中实例间的内积计算出来,存在 Gram 矩阵中,可以大大加快训练速度。
*