一、Logistic Regression Problem
-
仍然是心脏病预测的问题,可以根据病人的年龄、血压、体重等信息,来预测患者是否会有心脏病。这是一个二元分类问题,其输出y只有{-1,1}两种情况;
-
那么如果我们要预测的是病人患心脏病的概率是多少呢,这时候输出y就不是简单的{-1,1}了,而是区间[0,1],我们把这个问题称为软性二分类问题(’soft’ binary classification);
那么我们如何来找到一个hypothesis接近我们的目标函数f(x)∈[0,1]呢?
-
首先我们仍然对所有的feature进行加权处理,并得到s,我们称之为“risk score”;
-
但是特征加权和s∈(−∞,+∞),如何将s值转化为在[0,1]之间呢?一个方法是使用Logistic Function,记为θ(s),它的坐标图像如上;
-
于是我们就得到一个logistic hypothesis: h ( x ) = θ ( w T x ) h(x)=θ(w^Tx) h(x)=θ(wTx)。
-
θ(s)的解析式如上,它是一个平滑的、单调的“S型”函数。
二、Logistic Regression Error
首先,我们来看一下之前学过的另外两种linear model是如何来进行error measure:
-
三种model的scoring function一样都是 s = w T x s=w^Tx s=wTx;
-
不同的在于hypothesis是如何对s进行运算得到输出的,linear classification是公国sign(s),linear regression直接输出s,而logistic regression则是通过sigmoid function θ(s);
-
前二者对应的error measure分别是0/1 error和squared error,那么针对logistic regression呢?
-
所谓的error measure就是对hypothesis h偏离target function f的衡量,换句话说就是h和f有多像,我们把这个叫做*“likelihood似然性”*,最像的那个g也叫做最大似然的likelihood;
-
考虑一个dataset D,他是由f产生的,那么其概率如左图,如果我们希望找到的那个最接近f的h存在,那么其也能产生同样的dataset D,其概率和f应该最接近;
-
因为f是我们认为实际产生D的,所以其概率是很大的,于是我们只要找到一个h使得likelihood(h)达到最大时,它就会是我们希望找到的g。
-
经过以上推导,我们得到likelihood(h)正比于h( y n x n y_nx_n ynxn)的联乘,原因:
-
对于所有的h,P( x n x_n xn