个人博客文章链接: http://www.huqj.top/article?id=163
对于某些分类问题,自变量可能是连续的,但是因变量却可能是离散的,例如:根据肿瘤大小判断该肿瘤是否是良性。这种问题不适合用线性回归来解决,虽然可以将连续的因变量值映射到离散的分类上,但是效果和训练复杂度都不尽如人意。因此,逻辑回归(logistic regression)就成为了一个解决分类问题的好方法。
所谓逻辑回归,就是通过函数模型将因变量的值控制到0~1之间,然后通过梯度下降法求出模型的参数,最后使用一个值域在(0,1)的函数进行预测,预测的结果就是分类为1的概率。
使用一个叫做sigmoid函数的和普通的线性回归函数组成复合函数就可以将函数的值域控制在0到1之间,sigmoid函数如下:
该函数的函数图像如下:
该复合函数就是逻辑回归的函数模型,而代价函数不适合使用线性回归相同的函数,因为线性回归函数的代价函数是和绝对误差成二次方比例的,不能很好的衡量训练误差,对于逻辑回归中的训练误差,我们需要一个更加强的惩罚,这个函数就是指数型函数,因为指数型函数的函数值在0~1之间导数绝对值极大,可以达到很好的训练误差“惩罚”效果:即训练出现误差的时候,代价函数会很大。
因此逻辑回归的代价函数如下:
这个函数也可以使用分段的形式呈现,但是写成统一的形式更加简洁ÿ