机器学习（第3章线性分类）

komjay

已于 2023-10-30 15:25:41 修改

阅读量103

点赞数

分类专栏：机器学习文章标签：机器学习分类人工智能

于 2023-10-11 14:23:40 首次发布

本文链接：https://blog.csdn.net/komjay/article/details/133768888

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

一、本章内容

1.了解机器学习中的一些基础知识。
2.学习感知机相关知识。
3.了解线性鉴别分析。
4.学习logistic模型。

二、基础知识

1.n维向量：这是我们做实验的标准输入，无论原始是数据是什么（数据、文字、图片、音视频等），最后想要进行机器学习，都要先转化为n维向量才行。
在这里插入图片描述
例子：

2.向量空间：

线性代数中对其的表述：

为了简单理解，举个例子：如果我们的数据集的每一条数据是（x1，x2），那么我们这个数据集的向量空间就是二维的，不可能存在一个数据是（x）或者（x1，x2，x3，…)的。
3.超平面：
在这里插入图片描述
观察超平面的表达式，如果x是一维数据，此时向量空间是一维的，就是直线，即g(x)，这样一条直线公式=0，就是直线与x轴的交点，这个交点将直线划分两个部分。同理，超平面能将我们的向量空间分成两个部分。

4.线性判别函数表达式:
在这里插入图片描述
线性判别函数表达式其实就是我们用于分类的主要工具。

5.相似性测度
作用：计算两个n维向量之间的差距，判断关系型高不高？
计算方法：
在这里插入图片描述

6.分类问题：
（1）定义（考试必考）：
在这里插入图片描述
（2）评估方法：

7.线性分类：
（1）线性可分性：

（2）线性分类问题最后必须会有一个线性超平面来划分区域，而不能二次型，非线性的。故线性分类器可表达为：

（3）而我们的任务目标是找到这样一个超平面去划分我们的数据，即：
在这里插入图片描述
（4）而针对多分类问题，数据如下所示：

我们有两种方法来设计我们的模型：
（a）二叉树对比：即每两类我都建模一个二分类器，从而判断到底是哪一类：

（b）最大相似性：将问题划分为一对多的问题，我们建模n个二分类器，每个二分类器都是将某一类和别的所有类别分开：
在这里插入图片描述

三、感知机

1.感知机与线性分类的关系：
在这里插入图片描述

上图是感知机的模型和线性分类的公式，学过深度学习的同学就会发现，这不就是神经网络的神经元嘛。还真是！感知机说起来很高大上，实际上就是神经网络中的一个神经元，甚至都不是神经网络的一层结构。图中p为输入，相当于线性分类中的x，w为感知机权值，相当于线性分类中的权值，对输入进行加权求和后得到n，b是一个系数，相当于w0，共同输入到硬限幅函数中（神经元中的激活函数），输出a，最后就可以通过a来进行分类。

2.误差函数：
在这里插入图片描述
（1.1）公式是只统计了出错的样本点，而（1.2）统计了所有样本点，但如果是正确分类的样本点，d(n)-y(n)=0，不会纳入误差函数的计算中。而观察误差函数的公式，我们可以简单发现其含义：错分样本点到分类超平面的误差距离的总和。

3.优化方法：
首先要明确，我们要优化的目标是w，这就是我们模型参数。我们使用梯度下降法来求解：
在这里插入图片描述
J（w）表示为误差函数，i表示第i个错误的样本。
第一条公式就是直接求解错误率最小的w，这是不好直接求得的，于是采用下面的两个方法。
梯度下降是统计了所有的错误样本后再更新参数，随机梯度下降则是取其中一个错误样本来迭代。其中η是学习率，是人为设置的超参数，用于减缓迭代速度。

我们以（1.2）为例，代入到GD方法中，可以得到新的w：
在这里插入图片描述

显然，如果数据真的是线性可分的，感知机训练算法在有限次迭代后，可以收敛到正确的解向量w。

4.误差修正
在上面的式子中，除了η(n)外，其他部分都已明确，η(n)在多数模型训练中都称为学习率，表示模型参数移动的步长，在一些复杂的模型中，我们可以设置其为一个固定的小数值，而在线性分类中，我们可以用误差修正，使学习率达到最优，使模型收敛速度提升。
在这里插入图片描述
我们只要记住在线性分类中，根据红框式子能自适应调整模型参数，想要了解其原理，可看下面的证明过程：（看的时候要记得我们的最后目标是：J(w)变得越小越好）

四、线性鉴别分析

1.问题：我们有两类的散点图，我们可能找到许多超平面去划分两类，那哪个超平面才是最合理的呢？如下图的例子：
在这里插入图片描述
2.这就是线性鉴别分析要解决的问题，而前人已经解决了这个问题：这个超平面的方向取决两个原理：
（1）类间距离最大化
（2）类内平均距离最小化

2.1. 怎么计算类间距离呢？方法也很简单：求两类的散点的均值点，均值点的距离就是类间距离：
在这里插入图片描述
p.s.如果只考虑类间距离而不考虑类内距离，会发生下图左边的情况，右图才是我们想要的超平面：

2.2. 类内平均距离应该怎样计算呢？其实这就是我们的方差：

3. 统合上面两点，我们可以得到我们的目标函数：
在这里插入图片描述
我们要优化的目标还是w，就是我们超平面的法向量。然后要注意的是：mi和Si不是我们原来的均值和方差，而是把点投影到w这个超平面后后均值和方差。所以说整个式子是关于w的函数，我们才能求解出最优解。
于是，类间距离的计算如下，黄色框为我们的计算结果：（关于先验部分可以忽略）
在这里插入图片描述

然后是类内平均距离：

于是，我们最终的目标函数变成了：

由于有分母，于是使用拉格朗日乘子来消解并最终求解：