大一小白,蒻蒟一个。记录机器学习的学习过程,功底欠缺,某些地方理解错误,还请多多指教。●▽●
首先这是一个有监督分类方法,就是数据是给出了样本的正确类别的。
而此逻辑回归非比逻辑回归,此是概率分类下的逻辑回归:
概率分类:生活中,常常需要对样本进行分类,分类的方法有很多(支持向量机,最小二乘分类,逻辑回归等等)而本文讲得逻辑概率回归分类是:通过求出样本对所有类别的概率,取最大概率所对应的类别即为目标值。
那这个概率怎么求呢?
用个下面这个公式建模:
公式很复杂,而小白对它的理解是:分子是样本在这个特定类别对应的概率值,而分母是样本对应于每个类别的概率值的和,这个和的值为1,概率值算法可以理解为exp(θ*fx),
好了,概率模型有了,那么如何最优化呢?
fx也是一种需要选择出来的模型,不需要我们去优化,我们要求的是θ,怎么求呢?
方法:
本文开头说过,这是一个有监督分类,即数据是提供了正确分类滴,我们就把模型求出来的每个样本正确分类所对应的概率值拿出来,并且相乘得出一个目标值,那么优化目标就很明显了,正确类别的概率必须要高,所以把这个目标值往更大的方向去优化就行了,只不过相乘得出来的值太小了,计算机算不了太小的数(丢失),所以把这个目标值去对数。
上述这个最终目标值就叫做对数似然(最大似然估计(Maximum likelihood estimation)(通过例子理解)
而对数似然又是可导的,要令它最大,不断梯度上升即可。
最后,理论讲完了,小试牛刀:
把fx选为高斯核模型(不懂核模型的戳这:核模型(核密度估计) - ZHOUJIAN_TANK的博客 - CSDN博客,即
可以开始打代码了: