ML学习笔记第三周(一):分类问题与其表达式

1 分类问题(Classification)

逻辑回归(Logistic Regression),是一种用于二分类(binary classification)的算法。(虽然叫回归,但它是应用于分类问题的算法,多分类问题会在之后讲到)。我们可以假设:

  • y=1 — 代表二分类中的正类(positive)
  • y=0 — 代表二分类中的反类(negative)

在这里插入图片描述
为何不用线性回归?

要尝试分类,一种方法是使用线性回归并将大于0.5的所有预测映射为1,将所有小于0.5的预测映射为0.但是,此方法不能很好地工作,因为分类问题实际上不是线性函数。

如下图所示,当仅有前八个训练实例时,线性回归预测效果(品红色直线)会比较好;但是如果加入第九个新的训练实例,线性回归的预测(蓝色直线)就会出现问题,会将第五第六个实例错误的分为negative
在这里插入图片描述
除了上面的缺点,线性回归的假设函数可能会超出[0,1]范围,但是分类问题y实际取值只能是0或1,超出这个范围就无法根据预测值与0.5的关系进行分类。

在这里插入图片描述

2 假设函数表达式(Hypothesis representation)

我们可以忽略y是离散值的事实来处理分类问题,并使用我们的旧线性回归算法来尝试预测给定x。但是,我们这样构建的方法执行示例效果会非常差。当我们知道y取0或1时,对于hθ(x)取到大于1和小于0的值是没有意义的。为了弥补这个缺陷,可以改变我们的假设函数hθ(x)来限定取值范围,就是将自变量变为θTx。

这样的假设函数图形就类似单位冲激函数,可以将任意实数映射到[0,1]区间。
在这里插入图片描述
当假设函数hθ(x)输出某个数,我们会认为这个数是,对于新输入样本 x 的 y 等于1的概率的估计值。 如下图例子所示,当x=[x0,x1]T=[1,tumorSize]T,hθ(x)的意义就是在给定的特征x和参数θ下,y=1(肿瘤为恶性)的概率是70%,相应地,y=0(肿瘤为良性)的概率就是30%。

在这里插入图片描述

3 决策边界(Decision Boundary)

在这里插入图片描述
具体举例:hθ(x)=θTx=0的曲线,即称为决策边界。该边界取决于参数θ,而非数据集x。一般我们用训练集来拟合参数θ,进而确定决策边界。
在这里插入图片描述
复杂的如非线性决策边界:在线性回归中我们可以使用多项式来进行预测,决策边界同样也可以是多项式形式,我们也可以对已有特征进行处理来增加或者减少参数数量。

如下图1所示,θ=[-1,0,0,1,1]T,对应的决策边界为x12+x22=0.。在这里插入图片描述
进一步的也可能会的到如下所示的更加复杂的决策边界。在这里插入图片描述

4 参考资料

1、机器学习-第三周

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值