1 分类问题(Classification)
逻辑回归(Logistic Regression),是一种用于二分类(binary classification)的算法。(虽然叫回归,但它是应用于分类问题的算法,多分类问题会在之后讲到)。我们可以假设:
- y=1 — 代表二分类中的正类(positive)
- y=0 — 代表二分类中的反类(negative)
为何不用线性回归?
要尝试分类,一种方法是使用线性回归并将大于0.5的所有预测映射为1,将所有小于0.5的预测映射为0.但是,此方法不能很好地工作,因为分类问题实际上不是线性函数。
如下图所示,当仅有前八个训练实例时,线性回归预测效果(品红色直线)会比较好;但是如果加入第九个新的训练实例,线性回归的预测(蓝色直线)就会出现问题,会将第五第六个实例错误的分为negative
除了上面的缺点,线性回归的假设函数可能会超出[0,1]范围,但是分类问题y实际取值只能是0或1,超出这个范围就无法根据预测值与0.5的关系进行分类。
2 假设函数表达式(Hypothesis representation)
我们可以忽略y是离散值的事实来处理分类问题,并使用我们的旧线性回归算法来尝试预测给定x。但是,我们这样构建的方法执行示例效果会非常差。当我们知道y取0或1时,对于hθ(x)取到大于1和小于0的值是没有意义的。为了弥补这个缺陷,可以改变我们的假设函数hθ(x)来限定取值范围,就是将自变量变为θTx。
这样的假设函数图形就类似单位冲激函数,可以将任意实数映射到[0,1]区间。
当假设函数hθ(x)输出某个数,我们会认为这个数是,对于新输入样本 x 的 y 等于1的概率的估计值。 如下图例子所示,当x=[x0,x1]T=[1,tumorSize]T,hθ(x)的意义就是在给定的特征x和参数θ下,y=1(肿瘤为恶性)的概率是70%,相应地,y=0(肿瘤为良性)的概率就是30%。
3 决策边界(Decision Boundary)
具体举例:hθ(x)=θTx=0的曲线,即称为决策边界。该边界取决于参数θ,而非数据集x。一般我们用训练集来拟合参数θ,进而确定决策边界。
复杂的如非线性决策边界:在线性回归中我们可以使用多项式来进行预测,决策边界同样也可以是多项式形式,我们也可以对已有特征进行处理来增加或者减少参数数量。
如下图1所示,θ=[-1,0,0,1,1]T,对应的决策边界为x12+x22=0.。
进一步的也可能会的到如下所示的更加复杂的决策边界。
4 参考资料
1、机器学习-第三周