机器学习

最新推荐文章于 2024-09-26 17:23:00 发布

isaacke

最新推荐文章于 2024-09-26 17:23:00 发布

阅读量98

点赞数

分类专栏：数据预处理文章标签：人工智能

本文链接：https://blog.csdn.net/isaacke/article/details/84754591

版权

数据预处理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

机器学习三要素：模型、目标、算法，model cost function

著作权归作者所有。
商业转载请联系作者获得授权，非商业转载请注明出处。
作者：周小涛
链接：http://www.zhihu.com/question/24900876/answer/65176508
来源：知乎

Linear Regression的cost function是最小二乘，即
$J(\theta)=\frac{1}{2}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$
但是Logistic Regression的cost function却是 $J(\theta)=\sum_{i=1}^m[y^{(i)}logh_\theta(x^{(i)})+(1-y^{(i)})log(1-h_\theta(x^{(i)}))]$
为什么Logistic Regression不使用最小二乘做cost function呢？

答案是各自的响应变量服从不同的概率分布。
在Linear Regression中，前提假设是

服从正态分布，即 $y\sim N(\mu,\sigma^2)$ ，而Logistic中的

是服从二项分布的，即 $y\sim Bernoulli(\phi)$ 。(为什么不服从正态？因为

非0即1啊！)
因而，在用极大似然估计计算时，所得到的cost function自然是不一样的。(可自行推导)

然而，只有目标是没用的，我们还要有方法来达到目标，这里的方法就是上述的算法——最优化算法。包括常用的梯度下降法(最速下降法)、牛顿法、拟牛顿法等。这样，一个机器学习算法就算完整了，因为可以用这些最优化算法来 $minJ(\theta)$ 求出 $\theta$ 。