ML学习笔记第三周（一）：分类问题与其表达式

最新推荐文章于 2022-05-10 14:08:22 发布

朕蹲厕唱忐忑

最新推荐文章于 2022-05-10 14:08:22 发布

阅读量210

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_33296651/article/details/86763483

版权

机器学习专栏收录该内容

23 篇文章 0 订阅

订阅专栏

1 分类问题（Classification）

逻辑回归（Logistic Regression），是一种用于二分类（binary classification）的算法。（虽然叫回归，但它是应用于分类问题的算法，多分类问题会在之后讲到）。我们可以假设：

y=1 — 代表二分类中的正类（positive）
y=0 — 代表二分类中的反类（negative）

在这里插入图片描述
为何不用线性回归？

要尝试分类，一种方法是使用线性回归并将大于0.5的所有预测映射为1，将所有小于0.5的预测映射为0.但是，此方法不能很好地工作，因为分类问题实际上不是线性函数。

如下图所示，当仅有前八个训练实例时，线性回归预测效果（品红色直线）会比较好；但是如果加入第九个新的训练实例，线性回归的预测（蓝色直线）就会出现问题，会将第五第六个实例错误的分为negative
在这里插入图片描述
除了上面的缺点，线性回归的假设函数可能会超出[0,1]范围，但是分类问题y实际取值只能是0或1，超出这个范围就无法根据预测值与0.5的关系进行分类。

在这里插入图片描述

2 假设函数表达式（Hypothesis representation）

我们可以忽略y是离散值的事实来处理分类问题，并使用我们的旧线性回归算法来尝试预测给定x。但是，我们这样构建的方法执行示例效果会非常差。当我们知道y取0或1时，对于h_θ(x)取到大于1和小于0的值是没有意义的。为了弥补这个缺陷，可以改变我们的假设函数h_θ(x)来限定取值范围，就是将自变量变为θ^Tx。

这样的假设函数图形就类似单位冲激函数，可以将任意实数映射到[0,1]区间。
在这里插入图片描述
当假设函数h_θ(x)输出某个数，我们会认为这个数是，对于新输入样本 x 的 y 等于1的概率的估计值。如下图例子所示，当x=[x₀,x₁]^T=[1,tumorSize]^T,h_θ(x)的意义就是在给定的特征x和参数θ下，y=1(肿瘤为恶性)的概率是70%，相应地，y=0(肿瘤为良性)的概率就是30%。

在这里插入图片描述

3 决策边界（Decision Boundary）

在这里插入图片描述
具体举例：h_θ(x)=θ^Tx=0的曲线，即称为决策边界。该边界取决于参数θ，而非数据集x。一般我们用训练集来拟合参数θ，进而确定决策边界。

复杂的如非线性决策边界：在线性回归中我们可以使用多项式来进行预测，决策边界同样也可以是多项式形式，我们也可以对已有特征进行处理来增加或者减少参数数量。