1、定义
最优化方法是给定一个数学上明确表达的密保偶,如何用系统方法和思路找到该问题的最优解。主要讨论:给定某个确定的目标函数以及该函数自变量的一些约束条件,求解该函数的最大活最小值的问题。
2、最优化方法
2.1 拉格朗日法和凸优化
通过引入朗格朗日乘子来进行优化
2.2 下降单纯形法
当f函数不可到或者工程上求导代价极大,可以通过黄金分割方法不断缩小区间来获得最小值,也称为阿米巴变形虫法
2.3 梯度下降法
当f函数容易求导,可以采用基于梯度下降最快的方向来求极值
2.4 拟牛顿法
梯度下降过程会出现Zig-Zag的折线问题,拟牛顿法采用通过判断f函数的二阶倒数的正定来进行优化,会用到 wolfe条件的判断
2.5 trust-region(信頼域)法
梯度下降、拟牛顿、牛顿方法都是线性搜索,基于一个方向选择下一个迭代点完成优化,策略可以定义为“先方向,后步长”
trust-region采用每次搜索限制在一x的一个置信域内,同时决定方向和步长;如果当前置信域找不到可行解,缩小置信范围,通过多次迭代完成
3、总结:
最优化方法主要用在非统计学习中,比如:深度学习,强化学习等。而统计学习方法,虽然也用到最优化方法,但是还有已卸载概率框架下系统性的思路
4、相关其他计算问题
4.1 担保式投送
GD(Guarantee delivery,担保式投送)广告投放系统中的核心问题是匹配supply和demand。
这类广告的特点是:广告系统要保证广告主要求的定向条件的曝光量,有时间限制,超过时间没有完成可能会赔偿
4.2 广告中统计机器学习
a) 最大熵与指数分布:最大熵原理告诉我们,当在某些选择统计模型时,需要尽可能选择满足这些挑中的模型中不确定性最大的那个,转化为一个在这些约束下优化熵的问题。LR就是最大熵的特例
b)混合模型和EM算法
指数分布是单模态的,不适用于处理比较复杂的数据建模,为了解决这些问题,有充分利用指数的特征,工程上采用了多个指数函数分布叠加的部分来建模的实用方法,即混合模型,EM是求解的一种算法,汇合模型有很多变体
c)贝叶斯方法
a和b都是在最大似然准则下进行的,就是把模型参数看成是固定的,求得最大似然参数,是一种参数的点估计,针对样布不足会形成较大的误差。
概率统计的常见任务是:参数估计和预测
最大似然体系中,参数估计是估计似然值最大化得到的点估计,预测直接使用参数来预测即可,比如:LR
在贝叶斯体系中,参数的点估计为其后验分布统计所代替,疑问这参数在估计结果中具有不确定性,于是,在预测的过程中需要用积分的形式将参数的不同可能性都加以考虑。