Machine Learning (3) Classification and Representation

最新推荐文章于 2022-10-31 22:30:24 发布

NeilKuang

最新推荐文章于 2022-10-31 22:30:24 发布

阅读量234

点赞数

分类专栏：机器学习文章标签： coursera machine learning Classification Representation

本文链接：https://blog.csdn.net/weixin_39277458/article/details/82778815

版权

机器学习专栏收录该内容

7 篇文章 1 订阅

订阅专栏

1. Classification and Representation [分类和表达]：

1.1 Classification [分类]:

1.1.1 为了达到分类的目的，一种方法是使用线性回归，并将所有大于某值的预测映射为1，而所有预测小于该值的都映射为0。然而，这种方法并不总是适用的，因为分类问题实际上并不能用一个线性函数来描述。

1.1.2 事实上绝大多数分类问题都不应该使用线性函数进行描述，即使部分线性函数可以对分类问题进行正确描述，这只是极少数情况。一个非常有代表性的例子是，当训练样本y值全是0和1时，用线性函数预测出的结果并不是只有0和1，这显然是与事实不符的。

1.1.3 对于二值问题中的0和1项有时也被称为负项和正项。

1.2 Hypothesis Representation [假设函数的表示法]：

1.2.1 针对前述问题，线性函数中会出现大于二值问题范围的情况，这样将预测函数变为只在二值问题范围中的函数会更加合理。于是，将θTx放入某the Logistic Function [逻辑函数]中会是一个更合理的处理方式，在这里我们选用了“the Sigmoid Function”[S形函数]（且相应S形函数图像如下右）：

1.2.2 关于二值问题，不如假设两个值就用0和1来代指，如下公式是用条件概率的方式对这个二值问题进行了描述。其含义是，对于参数theta为θ时，当观测数据为x时，y为1的概率是多少。(条件概率在工程领域的应用非常广泛，例如我在SLAM问题以及随后我将更新的关于Robotics控制等的问题中都被广泛应用。)

1.3 Decision Boundary [决策边界]：

1.3.1 为了得到离散的0和1分类，可以将假设函数的输出转换为如上二形式（可以理解为为假设函数设置一个阈值，这里我们就简单的使用0.5来方便讨论了）。由上一式可见，当假设函数大于0.5时，即逻辑函数g(z)大于0.5时，相应的z值是大于0的。而相应z值是一个θ转置与x的矩阵乘积。

1.3.2 关于由g(z)随z的变化，即正负函数性的判断可参照如下过程：

而对于相应z是由θTx决定的，于是将上一进一步推导得到上二。

1.3.3 在有了θ和x的关系之后，回到最根本的对y的判断上，于是得到θTx与y之间的关系如上三。

1.3.4 这时假设x由[x0, x1, x2]T组成，于是得到一个θ1*x1 +θ2*x2 > x0的关系，如果在x1Ox2坐标系中画出可以得到相应的决策边界。

1.3.5 注意，如上的决策边界是由相应的θ决定的，即当θ确定了之后，相应的决策边界就确定了。而上一节中的下降梯度算法和正规函数解决的目标是找到相应的θ，关于这个问题会在后续讨论中给出方法。

2. Logistic Regression Model [逻辑回归模型]：

2.1.1 在逻辑回归问题中，很难直接使用线性回归模型中的代价函数，因为如在上一点中提到的逻辑函数的复杂形式，相应的代价函数的输出会是上下波动的，这会导致大量的局部最优值，由此这种函数不是一个凸函数。

2.1.2 为了解决4.1中提到的问题，对于分类问题（这里我们以二值分类为例），将逻辑回归的成本函数设定为如下形式：

2.1.3 当y = 1时，我们将得到如下左图像，其中纵轴是J(θ)，横轴是hθ(x)。类似地，当y = 0时，我们会得到如下中的函数图像。相应数学表达如下三。

2.1.4 对于如上叙述可以这么理解，y的值是样本的真实值，如前所述，当观测到x时，经过假设函数h(x)得到的预测值，如果与真实的y值相差很远，则所谓的成本函数J(θ)应该很大，如果h(x)的预测值与真实值完全相同，相应的成本函数J(θ)的值应该为0。（从前述关于成本函数cost function的讨论，可以被推广到很多基于概率的问题上。）