逻辑回归、线性回归、最小二乘、极大似然、梯度下降

转自

http://www.zhihu.com/question/24900876


机器学习的基本框架大都是模型、目标和算法!

重要的事情说三遍!
对于一个数据集,首先你要根据数据的特点和目的来选择合适模型。
就你问的而言,选定的 模型是Logistic Regression。现在既然已经选择了模型,那么接下来的问题是:怎么才能让这个模型尽可能好的拟合或者分类数据呢?那么就需要有 目标,所以要定下模型的cost function,但是cost function怎么定呢?凭直觉随便选吗!不!可!能!
我们都知道,Linear Regression的cost function是最小二乘,即
J(\theta)=\frac{1}{2}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2
但是Logistic Regression的cost function却是 J(\theta)=\sum_{i=1}^m[y^{(i)}logh_\theta(x^{(i)})+(1-y^{(i)})log(1-h_\theta(x^{(i)}))]
为什么Logistic Regression不使用最小二乘做cost function呢?

答案是各自的响应变量y服从不同的概率分布。
在Linear Regression中,前提假设是 y服从正态分布,即 y\sim N(\mu,\sigma^2),而Logistic中的 y是服从二项分布的,即 y\sim Bernoulli(\phi)。(为什么不服从正态?因为 y非0即1啊!)
因而,在用极大似然估计计算时,所得到的cost function自然是不一样的。(可自行推导)

然而,只有目标是没用的,我们还要有方法来达到目标,这里的方法就是上述的 算法——最优化算法。包括常用的梯度下降法(最速下降法)、牛顿法、拟牛顿法等。这样,一个机器学习算法就算完整了,因为可以用这些最优化算法来 minJ(\theta)求出 \theta

所以! 结论是:三者完全没有可比性!
由一些前提假设和 极大似然估计从概率的角度推导出了cost function(Linear中是 最小二乘,Logistic中是对数似然),而 梯度下降只是一个最优化算法,用来优化cost function的。
  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值