各方法在训练中对应的作用简单解释
微积分:求导
梯度下降法:求最优解
最小二乘法:寻找数据的最佳函数匹配
朴素叶贝斯:回归 分类
极大似然估计:将概率最大化的参数作为真实估计值使用。
似然函数、对数似然:取对数可以将连乘转为连加且不影响单调性,但其实可能更重要的一点是概率的连乘将会变成一个很小的值,可能会引起浮点数下溢,尤其是当数据集很大的时候,联合概率会趋向于0,非常不利于之后的计算。
线性回归:线性分类
局部加权线性回归:高斯核函数加权
logistic回归:非线性分类
softmax回归:多分类
L1/L2正则化:防止过拟合
目标函数,损失函数,损失权重
数据升维:寻找高次特征
正态分布:钟型曲线
决策树 随机森林
拉格朗日乘子法:约束条件下求极值
函数求驻点:一阶导数为0
信息增益:决策树算法的每个特征选择依据
信息增益率:单个分支值过多进行惩罚的依据
信息增益、信息增益率、基尼系数
进行剪枝,选择损失函数最小的树
Bagging:多个分类器投票结果决定分类
OOB数据:重采样有37%的数据未被使用,称为袋外数据,可取代测试集用于误差估计
Isolation Forest:随机选择依据建立决策树,异常检测