机器学习中的大多数问题可以归结为最优化问题。把一些典型的问题用最优化的方法建立数学模型,再最优化的方式求解。
我们再看看数据挖掘和机器学习中哪些是最优化问题,哪些不是。
名称 | 是否最优化 | 其他 |
关联规则 | 否 | 支持度和置信度; 其实就是联合概率p(x,y)和条件概率p(y|x)。 典型的创造概念,但是没有新的东西 |
决策树 | 否 | 取信息增益大的结点 |
线性回归 | 是 | 最小化误差平方 |
最大熵 | 是 | 熵最大 |
logistic 回归 | 是 | 最大似然 |
SVM | 是 | 最小化间隔 |
HMM | 是 | 最大似然 |
贝叶斯 | 是 | 最小化误差 |
矩阵分解的推荐系统 | 是 | 用户和商品的隐状态向量 |
无约束的最优化问题,一般是描述得到最优化的目标函数f(x),然后求使得f(x)最小的x点:
min f(x)
基本解法:
基本解决包括最速下降法,牛顿法,拟牛顿中的DFP和BFGS。而BFGS中又有有限内存的BFGS作为其实现。
最速下降:x‘=x+ g(x)
牛顿法:
拟牛顿法:
BFGS
在机器学习都是把问题转化为最优化问题。我们看看有哪些应用和相应的最优化问题。
最小误差
最大似然
最大熵
最大间隔
最小化打分和预测分数的差异: