2.2常用算法公式

算法:
以wx+b=0为基础的算法:
感知机->误分点(xi,yi | i->m)到wx+b的距离和最小,求最优解;
支持向量机->最大间隔;
逻辑回归->将wx+b的值作为逻辑函数输入,进行分类;
线性回归->勾画线性曲线,对未知量预测;
以P(Y|X)=P(Y)P(X|Y)/P(X)为基础:
朴素贝叶斯:根据先验和条件概率计算后验概率;
HMM隐马尔科夫:??
以选取分裂特征进行决策:
ID3树:信息增益;->数据集Y的信息增益 减 特征A不同值的子样本数据集的信息增益和
C4.5树:信息增益率;->信息增益/数据集Y的信息增益
CART树:基尼指数;->p*(1-p) 数据集Y的基尼指数 减 特征A不同值的子数据集的基尼指数和,xx错错错xx,越小越好
基尼指数:计算某个特征的某个特征值的基尼指数来比较 Gini(D,A1) Gini(D,A3) Gini(D,B1)->取其中较小的!!如果有3个特征值->Gini(D,A1)A1和A1以外即A2A3;Gini(D,A3)A3和A3以外即A1A2;
集成
Xgboost:
GBDT: 决策树和回归树
AdoBoost: 树不断更新权重
随机森林:CART树森林
优化:
梯度下降:是最早最简单,也是最为常用的最优化方法;梯度下降法实现方便理论简单,当目标函数是凸函数时,梯度下降法的解是全局解。一般情况下,其解不保证是全局最优解,梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为是”最速下降法“。最速下降法越接近目标值,步长越小,前进越慢。靠近极小值时梯度很小,下降很慢。
两者的关系:随机梯度下降方法以损失很小的一部分精确度和增加一定数量的迭代次数为代价,换取了总体的优化效率的提升。增加的迭代次数远远小于样本的数量。
批量梯度下降—最小化所有训练样本的损失函数,使得最终求解的是全局的最优解,即求解的参数是使得风险函数最小,但是对于大规模样本问题效率低下。
随机梯度下降—最小化每条样本的损失函数,虽然不是每次迭代得到的损失函数都向着全局最优方向, 但是大的整体的方向是向全局最优解的,最终的结果往往是在全局最优解附近,适用于大规模训练样本情况。
牛顿法:使用函数f (x)的泰勒级数的前面几项来寻找方程f (x) = 0的根。
优点:二阶收敛,收敛速度快;
缺点:牛顿法是一种迭代算法,每一步都需要求解目标函数的Hessian矩阵的逆矩阵,计算比较复杂。
共轭梯度法(Conjugate Gradient):介于梯度下降与牛顿法之间的一个方法,它仅需利用一阶导数信息,但克服了梯度下降收敛慢的缺点,又避免了牛顿法需要存储和计算Hesse矩阵并求逆的缺点,共轭梯度法不仅是解决大型线性方程组最有用的方法之一,也是解大型非线性最优化最有效的算法之一。 优点是所需存储量小,具有步收敛性,稳定性高,而且不需要任何外来参数。
解决约束优化问题:拉格朗日乘数–http://www.cnblogs.com/maybe2030/p/4946256.html
启发式优化方法序列最小最优化(SMO):是最快的二次规划优化算法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值