1、结构风险最小化
结构风险最小化是指把函数集构造为一个函数子集序列,在每个子集中寻找最小经验风险,取得实际风险的最小化。
2、正则化
正则化就是对最小化经验误差函数上加约束,避免过拟合。
3、线性回归
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。将输入变量映射到连续输出空间,满足线性函数,为线性回归。
4、逻辑斯蒂回归
逻辑斯谛回归是经典的分类方法,它属于对数线性模型,原理是根据现有的数据对分类边界线建立回归公式,以此进行分类。在线性回归模型的基础上,使用Sigmoid函数,一般解决二分类问题。
5、Sigmoid 与 SoftMax 函数
Sigmoid 函数:S(x)=1/1+,常解决二分类问题。
Soft-Max函数:P=eʸⁱ╱∑ⱼeʸⁱ,常解决多分类问题。
6、决策树
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
7、信息熵 条件熵 信息增益
信息熵:信息熵是考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。
条件熵:某个事件的条件熵指在另一事件发生的情况下,该事件的熵的期望。表示了给定条件下信息的不确定性。
信息增益:信息增益代表了给定一个变量的条件下,原始变量不确定性的减小程度。
8、线性判别分析 LDA
线性判别分析(linear discriminant analysis,LDA)是对费舍尔的线性鉴别方法的归纳,试图找到两类物体或事件的特征的一个线性组合,以能够特征化或区分它们。所得的组合可用来作为一个线性分类器,更常见的是,为后续的分类做降维处理。
9、概率近似正确 PAC
给定随机抽取的训练数据后,PAC学习要求学习算法能以很高的概率从函数集中选出一个与最优函数误差很小的函数。
10、自适应提升AdaBoost
AdaBoost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个最强的最终分类器(强分类器)。