林轩田《机器学习基石》（二）——Learning to answer yes or no

最新推荐文章于 2024-07-19 16:33:18 发布

不抱我起来就没法医治

最新推荐文章于 2024-07-19 16:33:18 发布

阅读量208

点赞数

分类专栏：机器学习基石文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43463276/article/details/107321764

版权

机器学习基石专栏收录该内容

16 篇文章 4 订阅

订阅专栏

本次介绍课程的第一个机器学习算法：Perceptron Learning Algorithm（PLA）

注：感知机= 感知器，噪声= 杂屑，阈值= 门槛值

一、感知机模型

机器要不要发信用卡？即，机器学习如何做“是非题”。

输入： $x \in X$ (顾客资料)

输出： $y \in Y$ (引用卡记录好坏)

实际的规则（但是我们不知道）： $f:X\rightarrow Y$

资料： $D=\left \{ (x_1,y_1),(x_2,y_2),...,(x_n,y_n) \right \}$

有一个学习算法A，A要从hypothesis set（假说） H中找到一个出来，使得和越来越接近，可以用去衡量是否可以贷款给顾客。

顾客x有很多个特征，如“年龄”、“职业”等，这些都影响我们是否要给它信用卡。我们可以对每个特征进行打分，然后得到一个总分，看它是否超过了某个“门槛”，如果超过了我们可以给信用卡，没有超过则不给。

我们今天介绍的感知机模型 h(x) 由权重（打分）和阈值（门槛）决定，我们找感知机模型也就是找权重和阈值。

通常，我们可以将权重和阈值合并，写成向量的形式从而简化代码。w表示合并后的向量。

顾客特征：为了方便可视化，我们假设顾客特征是二维的，可以在图中表示为一个点。

标签：正类（o +1），负类（× -1）

感知机： h(x)=sign(w_0+w_1x_1+w_2x_2) ，其实是一条分割直线 w_0+w_1x_1+w_2x_2=0 ，将正类和负类分割在直线的两遍。

hypothesis set（假说） H：就是所有可能的线或者是高维分割平面。

二、如何从hypothesis set（假说） H中选一个更好的

首先我们知道什么？答：现存的数据（资料）。

所以我们可以要求我们找到的在看过的资料上表现都很好，使得 g(x_n)=f(x_n)=y .（接近，最好一模一样）

思路：在空间中我们可以先找到一条线，然后不停地修正它。

我们首先复习一下点法式直线的确定：

已知直线经过点 P(a_0,b_0) ，且已知法向量 $\vec{n}=\left \{A,B \right \}$ （可以看出这里的法向量是权重w），则直线方程为

A(x_1-a_0)+B(x_2-b_0)=0

所以给一个权重w和点，我们就可以确定一条直线，通常我们把经过的点设为原点（0,0）

现在我们讨论如何修正这条直线：

首先，我们要有一个初始的直线， $w^T_{0} x=0$ 由初始权重 w_0 确定。

之后我们来看如何修正：

（1）我要正，它给我负，说明 w^Tx< 0 ，角度太大，所以做修正 w+x ，让角度变小

（2）我要负，它给我正，说明 w^Tx> 0 ，角度太小，所以做修正 w-x ，让角度变大

综上，我们所做的修正为 $w_{t+1}= w_t+y_{n(t)} x_{n(t)}$

我们从顾客1...一直将所有顾客x轮一遍，看看有没有犯错。步骤如下：

图解：

step1：我们设point 1为原点，红色为权重（也是确定直线的法向量），看到正点 x_g 被分错了，所以我们更新

w(t+1)= w(t)+1* x_g

令 w(t)= w(t+1) ，可以看到分割直线垂直于 w(t) 。

对PLA，存在两个问题：

PLA迭代一定会停下来吗？
为什么一定会停下来/不会停下来？

三、PLA的收敛理论

当资料（数据）线性可分的时候，PLA会停。

对于线性可分的情况，如果有这样一条直线，能够将正类和负类完全分开，令这时候的目标权重为 w_f （我们假设这是最终的完美结果），则对每个点，必然满足 $y_n= sign(w_f^{T} x_n)$ ，故对任一点： $y_{n(t)} \mathbf{w}_{f}^{T} \mathbf{x}_{n(t)} \geq \min _{n} y_{n} \mathbf{w}_{f}^{T} \mathbf{x}_{n}>0$ 。

我们希望 w_f 和 w_t 无限接近，两个向量内积越大，则两个向量越来越接近，直到两个向量相等达到上界（相等或者很接近时候的 w_t 就是我们要找的权重）。为了去除scale的影响，我们除以两个向量的模（其实就是计算两个向量的夹角）。

我们接下来证明以下公式，则可证明随着T的增大，两个向量越来越接近：

证明：

$\begin{aligned} w_{f}^{T} w_{t} &=w_{f}^{T}\left(w_{t-1}+y_{n(t-1)} x_{n(t-1)}\right) \\ & \geq w_{f}^{T} w_{t-1}+\min _{n} y_{n} w_{f}^{T} x_{n} \\ & \geq w_{0}+t \cdot \min _{n} y_{n} w_{f}^{T} x_{n} \\ & \geq t \cdot \min _{n} y_{n} w_{f}^{T} x_{n} \end{aligned}$

另一方面，我们直到当符号判断错误时，才会更新 w_t ，所以有

$sign\left(w_{t}^{T} x_{n(t)}\right) \neq y_{n(t)} \Leftrightarrow y_{n(t)} w_{t}^{T} x_{n(t)} \leq 0$

$\begin{aligned} \left\|w_{t}\right\|^{2} &=\left\|w_{t-1}+y_{n(t-1)} x_{n(t-1)}\right\|^{2} \\ &=\left\|w_{t-1}\right\|^{2}+2 y_{n(t-1)} w_{t}^{T} x_{n(t-1)}+\left\|y_{n(t-1)} x_{n(t-1)}\right\|^{2} \\ & \leq\left\|w_{t-1}\right\|^{2}+0+\left\|y_{n(t-1)} x_{n(t-1)}\right\|^{2} \\ & \leq\left\|w_{t-1}\right\|^{2}+\max _{n}\left\|x_{n}\right\|^{2} \\ & \leq\left\|w_{0}\right\|+t \cdot \max _{n}\left\|x_{n}\right\|^{2}\\ &=t \cdot \max _{n}\left\|x_{n}\right\|^{2} \end{aligned}$

故可得 $\frac{w_{f}^{T}}{\left\|w_{f}\right\|} \frac{w_{T}}{\left\|w_{T}\right\|} \geq \sqrt{T} \cdot \frac{ \min _{n} y_{n} w_{f}^{T} x_{n}}{\left\|w_{f}^{T}\right\| \cdot \max _{n}\left\|x_{n}\right\|}$