一种分类算法,属于Discriminant Learning Algorithms,是这样一种类型的算法:直接计算p(y|x)(比如Logistic Regression),或者直接把一个输入判定为一种类别(比如Perceptron Algorithm);而另一种叫做Generative Learning Algorithms,主要计算p(x|y)和p(y)来计算p(y|x)(比如朴素贝叶斯)。
Logistic Regression是这样来建模的:
这里先假设类标签只有{0,1}两种,假设:
则有:
合起写来就是:
用最大似然估计来估计参数(假设各训练样本独立),
通常用随机梯度上升(StochasticGradient Ascent)的方法来最大化上式(速度比较快)。随机选择theta,开始进行如下迭代,直到似然函数前后变化<threshold:
按照以上方法得到参数theta后怎么进行分类呢?
当类标签有k(k>2)的情况,还没看。