1 结构风险最小化
保证经验风险的同时,降低机器学习的VC维,使得机器学习在样本集中的期望风险可在范围内控制。
2 [正则化]
一种机器学习中常用到的技术,用于控制训练模型复杂程度,从而减小过拟合风险。
3 [线性回归]
是一种研究自变量与因变量变化关系的方法,常用于机器学习中的监督学习,因自变量与因变量为线性关系故称为线性回归。
4 [逻辑斯蒂回归]
属于对数线性模型,原理是根据现有的数据对分类边界线建立回归公式,以此进行分类。
5 Sigmoid 与 SoftMax 函数
softmax函数又称归一化指数函数,是逻辑函数的一种推广。
sigmoid函数常被用作神经网络的阈值函数,将变量映射到0,1之间。
6 决策树
决策树是一种基本的分类和回归方法,理论结构与二叉树相似,本质上是一种树模型。
7 信息熵 条件熵 信息增益
信息熵
信息熵是离散随机变量的不确定性指标,熵值越大,不稳定性越大。信息熵也可看作为随机事件的信息量对于随机事件的期望。
条件熵
条件熵是在一个随机变量已经确定的情况下,另一个随机变量的条件的熵对随机变量的期望。
信息增益
信息增益表示了在确定一个变量的条件下,原始变量不确定性的减小程度。
8 线性判别分析 LDA
线性判别分析,是一种机器学习中监督学习的算法,常用来做特征提取,数据降维以及任务分类。
9 概率近似正确 PAC
PAC用于在机器学习的监督学习中从假声空间选择一个最优假设,可用于判断在没达到可以足以作出假设时来解决问题的下限。
10 自适应提升AdaBoost
用于机器学习中提高那些被前一轮分类器错误分类的样本的权重,而降低那些被正确分类的样本的权重。加大分类错误率低的弱分类器的权重。