【机器学习】【base】 之 目标函数 损失函数 优化算法

原创 2016年08月30日 21:19:44

目录

机器学习的核心是一个模型,一个损失函数loss fuction(由目标函数得出),加上一个优化算法。一个损失函数可以用不同的优化算法,不同的损失函数也可以用相同的优化算法。

目标函数定义

最大似然(MLE),最大后验(MAP)都是构造目标函数的方法,是参数估计的方法之一。

最大似然方法

最大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。最大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
求最大似然函数估计值的一般步骤:
(1) 写出似然函数
(2) 对似然函数取对数,并整理
(3) 求导数
(4) 解似然方程

对于线性回归问题,它的模型是p(y|x)=N(wTx,σ2),我们采用最大似然来构造一个目标函数。
此时线性回归的loss function是”最小二乘公式”。
最后用梯度下降来找到目标函数的最值。当然,对于这个问题,我们也可以不用梯度下降,直接用向量的投影来直接算出最优解的表达式。即“最小二乘法”。
ps:最小二乘法是一种算法,最小二乘公式是一个loss function.

Logistic regression 的模型是p(y|x)=Ber(y|sigm(wTx)),Ber是伯努利分布,sigm是logistic sigmoid函数,我们采用最大似然来构造一个目标函数。
此时Logistic regression的loss function是交叉熵.
与之前的问题不同,这个目标函数比较复杂,是无法像线性回归那样一步直接算出最终的解的,但是,这个目标函数是凸的,所以我们依然能用梯度下降或者牛顿法来来找到它的最优解。

因为各自的响应变量服从不同的概率分布。在Linear Regression中,前提假设y是服从正态分布。而Logistic中的y是服从二项分布的(为什么不服从正态?因为非0即1啊!),因而,在用极大似然估计计算时,所得到的cost function自然是不一样的。

岭回归是给参数 w 加上一个高斯的先验分布,并用最大后验来构造目标函数,那么,这就相当于给目标函数加上一个L2正则项。如果我们给参数 w 加上一个拉普拉斯的先验分布,那么我们可以让 w 变得更加稀疏。我们还可以接着往下走,利用后验分布来进行模型平均(model averaging),得到更加完整的贝叶斯方法,

最优化算法

优化方法中,有一类是使用函数的梯度信息,包括一阶的方法,例如梯度下降、最小二乘法都是通过求导来求损失函数的最小值, 使得估算值与实际值的总平方差尽量更小;以及二阶的方法,例如牛顿法等。当然,还有和梯度无关的方法,例如 fixed point iteration,坐标下降等

最小二乘

最小二乘可以由高斯噪声假设+极大似然估计推导出来
最小二乘法是直接对Δ求导找出全局最小,是非迭代法。

梯度下降

而梯度下降法是一种迭代法,先给定一个β,然后向Δ下降最快的方向调整β,在若干次迭代之后找到局部最小。梯度下降法的缺点是到最小点的时候收敛速度变慢,并且对初始点的选择极为敏感,其改进大多是在这两方面下功夫。

参考文档:

https://www.zhihu.com/question/24900876

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

机器学习中常见的损失函数

机器学习中常见的损失函数   一般来说,我们在进行机器学习任务时,使用的每一个算法都有一个目标函数,算法便是对这个目标函数进行优化,特别是在分类或者回归任务中,便是使用损失函数(Loss Functi...

GBDT和随机森林的区别

GBDT和随机森林的相同点: 1、都是由多棵树组成 2、最终的结果都是由多棵树一起决定 GBDT和随机森林的不同点: 1、组成随机森林的树可以是分类树,也可以是回归树;而GBDT只由回归树组成 ...

机器学习中的损失函数

损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验...

机器学习----模型评估与选择

西瓜书阅读笔记 话不多说 开始吧~模型评估与选择评估留出法(hold out)将数据集划分为两个互斥集合/分层采样 dilemma:若训练集S包含绝大多数样本,则训练出的模型可能更接近用D训练出的模...

机器学习中的损失函数

损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验...

机器学习----绪论

西瓜书阅读笔记 话不多说 开始吧~绪论为啥有机器学习?在计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法。学习任务有哪些问题种类...

关于岭回归

岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性(有偏和无偏 https://www.zhihu.com/question/229831...
  • guiiu
  • guiiu
  • 2017-02-14 20:59
  • 224

scikit-learn : 优化岭回归参数alpha优化

背景:优化岭回归参数alpha当你使用岭回归模型进行建模时,需要考虑Ridge的alpha参数。例如,用OLS(普通最小二乘法)做回归也许可以显示两个变量之间的某些关系;但是,当alpha参数正则化之...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)