使用工具:Python(x,y) 2.6.6
运行环境:Windows10
这两天又深入研究了一下逻辑回归的知识,以前学过一点,不过理解的不深刻,而且也基本全都忘了。
推荐另外一个博客:http://blog.csdn.net/zouxy09/article/details/20319673
看完之后,讲的很透彻,很多不明白的也能明白了,不愧为是大神级人物。这里只是简单说一下自己的理解。主要在以下三个方面:
1.逻辑回归与线性回归的关系
对于线性回归,即寻求一组最优的参数使得各个训练样本的回归值与真值的之差的平方和最小。
因此在进行二分类时,使用极值寻优的方式使得训练样本的似然函数最大。
二者具有一定的相似性。
从广义上可以认为,逻辑回归=线性回归+归一化函数,如下图所示。
2.代价函数的选择
对于逻辑回归代价函数,因为代表了样本属于类型的概率,因此,对其选择至关重要,有如下几方面限制:
(1)值域为[0,1],即概率最大为1,最小为0;
(2)当wTx=0时,f(x)=0.5;
(3)后续推导计算的方便性。
综上,选择p(x)=1/(1+exp(-θTx))作为代价函数。
3.似然函数寻优
似然函数寻优可以通过梯度下降法(基本梯度下降法、随机梯度下降法、改进的估计梯度下降法)和EM(Expectation-maximization)法进行求解。
对数据点进行二分类的结果如下图所示: