结构风险最小化
结构风险最小化是为了防止过拟合而提出的策略,等价于正则化。
正则化
正则化是通过控制模型复杂度来减小过拟合的技术。
线性回归
用来预测连续值的算法模型。
逻辑斯蒂回归
在线性回归模型的基础上,使用Sigmoid函数,将模型的结果压缩到[0,1]之间,使其具有概率意义,实现由值到概率的转换。
Sigmoid 与 SoftMax 函数
Sigmoid函数将一个值映射到[0,1]区间内,可以用作二分类
函数表达式:
g(x) =
SoftMax函数将k维向量压缩到一个k维向量中,使每个元素的值在(0,1)之间
函数表达式:
决策树
根据样本的特征,按照一定规则将无序的样本分裂成不同的分支,从而达到分类或回归的目的。
信息熵 条件熵 信息增益
信息熵是对信息量的期望,是对事件不确定性的度量。
条件熵H(Y|X)表示在已知事件x的条件下,事件Y的不确定性。
信息增益是在一定条件下信息复杂度的减少程度。
线性判别分析 LDA
一种二分类算法,以一种基于降维的方式将所有的样本映射到一维坐标轴上,然后设定一个阈值,将样本进行区分。
概率近似正确 PAC
同等条件下,模型越复杂泛化误差越大。
自适应提升AdaBoost
提高那些被前一轮被分类器错误分类的样本的权重,而降低那些被正确分类的样本的权重,加大分类错误率低的弱分类器的权重。