统计学习方法第二版（第二章）感知机

最新推荐文章于 2022-05-26 21:53:41 发布

闲筝小巴卫

最新推荐文章于 2022-05-26 21:53:41 发布

阅读量418

点赞数 4

分类专栏：统计学习方法

本文链接：https://blog.csdn.net/qq_35254791/article/details/116042527

版权

感知机

1.基础知识介绍
- 1.1 超平面
- 1.2 偏导数和梯度
2.感知机模型
- 2.1 模型定义
- 2.2 模型成立条件
3.选取模型策略
- 3.1 误分类点的数量
- 3.2 误分类点与超平面的距离
4. 梯度下降算法
- 4.1 梯度下降方法（Batch Gradient Descent, BGD）
- 4.2 随机梯度下降方法（Stochastic Gradient Descent, SGD）
5. 例子

感知机属于经典的二分类线性模型。今天我们按照统计学习方法中模型+策略+算法的思路，简单介绍从确定模型假设空间、模型选取方向（策略）及确定用何种算法去逼近这个方向的三个方面去了解如何训练出一个好的感知机模型的原理，后文也列举了感知机的简单算例方便理解。

1.基础知识介绍

1.1 超平面

在数学中，超平面（Hyperplane）是 $n$ 维欧氏空间中 $n - 1$ 维的线性子空间。设 $F$ 为域（可考虑 $F = R$ ）。 $n$ 维空间 $F^n$ 中的超平面是由方程： $a_1x_1+\dots+a_nx_n=b.$ 定义的子集，其中 $a_1,...,an\in F$ 是不全为零的常数。
例如：平面的“超平面”是直线、空间的“超平面”是平面。但是超平面一般指维度大于等于3的子空间.

以上要是觉得很难理解的话，建议想象三维空间被任意一个二维平面所切分为两个部分的场景，其中二维平面就是三维空间的超平面。

1.2 偏导数和梯度

一维函数

对于函数 $y = f (x)$ ,其中 $y$ 关于 $x$ 连续可导，导数为 $lim_{h\rightarrow0} \frac{f(x+h)-f(x)}{h}$ ,表示在x点的无穷小的邻域内y的变化率。

二维函数

现在我们考虑函数 $z = f (x, y)$ ，其中 $z$ 关于 $x$ , $y$ 连续可微。
z关于x的偏导数看作是在 假设y是一个常数下，z关于x的导数，表示为 $\frac{\partial z}{\partial x}=\frac{\partial f(x,y)}{\partial x}=f_{\nabla x}(x,y)$ ，同理 $\frac{\partial z}{\partial y}=\frac{\partial f(x,y)}{\partial y}=f_{\nabla y}(x,y)$

图像表示三维空间下的偏导数

用图像来表示，我们假设三维空间中 $z$ 为 $x$ , $y$ 的函数，现在来看 $z$ 关于 $y$ 的偏导数。

我们先假设 $x$ 为一个常数，此时任取 $x$ 为某一常数值 $a$ ，此时 $z$ 是在 $x = a$ 平面上关于y的函数。下图中黑线的部分是 $x = a$ 截面与 $z$ 的相交线，该线表示 $z = f (y, x = a)$ 。小球沿着黑线经过所有 $z = f (x, y)$ 在 $x = a$ 上的点。
在这里插入图片描述
下面，我们来表示在 $x = a$ 截面下 $z$ 关于 $y$ 的斜率，用穿过小球的线来表示在该点处 $z$ 关于 $y$ 的斜率，这就是 $z$ 关于 $y$ 的偏导。

现在我们换一边，换成y值固定为常数 $b$ ， $z$ 为在 $y = b$ 下关于 $x$ 的函数。黑线部分为 $y = b$ 与 $z = f (x, y)$ 的相交线，小球在相交线上滚动。

此时我们在小球上画一个箭头，该点处 $z$ 关于 $x$ 的斜率为正则箭头方向指向 $X$ 轴正方向，反之指向负方向； $z$ 关于 $x$ 的斜率大小为箭头的长度。此时我们可以将该点处 $z$ 关于 $x$ 的偏导数值用箭头的大小和方向表示出来，称为偏导向量。