机器学习 (第3章 线性分类)

一、本章内容

1.了解机器学习中的一些基础知识。
2.学习感知机相关知识。
3.了解线性鉴别分析。
4.学习logistic模型。

二、基础知识

1.n维向量:这是我们做实验的标准输入,无论原始是数据是什么(数据、文字、图片、音视频等),最后想要进行机器学习,都要先转化为n维向量才行。
在这里插入图片描述
例子:
在这里插入图片描述
在这里插入图片描述
2.向量空间:
在这里插入图片描述
线性代数中对其的表述:
在这里插入图片描述
为了简单理解,举个例子:如果我们的数据集的每一条数据是(x1,x2),那么我们这个数据集的向量空间就是二维的,不可能存在一个数据是(x)或者(x1,x2,x3,…)的。
3.超平面:
在这里插入图片描述
观察超平面的表达式,如果x是一维数据,此时向量空间是一维的,就是直线,即g(x),这样一条直线公式=0,就是直线与x轴的交点,这个交点将直线划分两个部分。同理,超平面能将我们的向量空间分成两个部分。

4.线性判别函数表达式:
在这里插入图片描述
线性判别函数表达式其实就是我们用于分类的主要工具。

5.相似性测度
作用:计算两个n维向量之间的差距,判断关系型高不高?
计算方法:
在这里插入图片描述
在这里插入图片描述

6.分类问题:
(1)定义(考试必考):
在这里插入图片描述
(2)评估方法:
在这里插入图片描述
7.线性分类:
(1)线性可分性:
在这里插入图片描述
(2)线性分类问题最后必须会有一个线性超平面来划分区域,而不能二次型,非线性的。故线性分类器可表达为:
在这里插入图片描述
(3)而我们的任务目标是找到这样一个超平面去划分我们的数据,即:
在这里插入图片描述
(4)而针对多分类问题,数据如下所示:
在这里插入图片描述
我们有两种方法来设计我们的模型:
(a)二叉树对比:即每两类我都建模一个二分类器,从而判断到底是哪一类:
在这里插入图片描述
(b)最大相似性:将问题划分为一对多的问题,我们建模n个二分类器,每个二分类器都是将某一类和别的所有类别分开:
在这里插入图片描述

三、感知机

1.感知机与线性分类的关系:
在这里插入图片描述
在这里插入图片描述

上图是感知机的模型和线性分类的公式,学过深度学习的同学就会发现,这不就是神经网络的神经元嘛。还真是!感知机说起来很高大上,实际上就是神经网络中的一个神经元,甚至都不是神经网络的一层结构。图中p为输入,相当于线性分类中的x,w为感知机权值,相当于线性分类中的权值,对输入进行加权求和后得到n,b是一个系数,相当于w0,共同输入到硬限幅函数中(神经元中的激活函数),输出a,最后就可以通过a来进行分类。

2.误差函数:
在这里插入图片描述
(1.1)公式是只统计了出错的样本点,而(1.2)统计了所有样本点,但如果是正确分类的样本点,d(n)-y(n)=0,不会纳入误差函数的计算中。而观察误差函数的公式,我们可以简单发现其含义:错分样本点到分类超平面的误差距离的总和。

3.优化方法:
首先要明确,我们要优化的目标是w,这就是我们模型参数。我们使用梯度下降法来求解:
在这里插入图片描述
J(w)表示为误差函数,i表示第i个错误的样本。
第一条公式就是直接求解错误率最小的w,这是不好直接求得的,于是采用下面的两个方法。
梯度下降是统计了所有的错误样本后再更新参数,随机梯度下降则是取其中一个错误样本来迭代。其中η是学习率,是人为设置的超参数,用于减缓迭代速度。

我们以(1.2)为例,代入到GD方法中,可以得到新的w:
在这里插入图片描述

显然,如果数据真的是线性可分的,感知机训练算法在有限次迭代后,可以收敛到正确的解向量w。

4.误差修正
在上面的式子中,除了η(n)外,其他部分都已明确,η(n)在多数模型训练中都称为学习率,表示模型参数移动的步长,在一些复杂的模型中,我们可以设置其为一个固定的小数值,而在线性分类中,我们可以用误差修正,使学习率达到最优,使模型收敛速度提升
在这里插入图片描述
我们只要记住在线性分类中,根据红框式子能自适应调整模型参数,想要了解其原理,可看下面的证明过程:(看的时候要记得我们的最后目标是:J(w)变得越小越好
在这里插入图片描述

四、线性鉴别分析

1.问题:我们有两类的散点图,我们可能找到许多超平面去划分两类,那哪个超平面才是最合理的呢?如下图的例子:
在这里插入图片描述
2.这就是线性鉴别分析要解决的问题,而前人已经解决了这个问题:这个超平面的方向取决两个原理:
(1)类间距离最大化
(2)类内平均距离最小化

2.1. 怎么计算类间距离呢?方法也很简单:求两类的散点的均值点,均值点的距离就是类间距离:
在这里插入图片描述
p.s.如果只考虑类间距离而不考虑类内距离,会发生下图左边的情况,右图才是我们想要的超平面:
在这里插入图片描述
2.2. 类内平均距离应该怎样计算呢?其实这就是我们的方差:
在这里插入图片描述
3. 统合上面两点,我们可以得到我们的目标函数:
在这里插入图片描述
我们要优化的目标还是w,就是我们超平面的法向量。然后要注意的是:mi和Si不是我们原来的均值和方差,而是把点投影到w这个超平面后后均值和方差。所以说整个式子是关于w的函数,我们才能求解出最优解。
于是,类间距离的计算如下,黄色框为我们的计算结果:(关于先验部分可以忽略)
在这里插入图片描述
在这里插入图片描述
然后是类内平均距离:
在这里插入图片描述
在这里插入图片描述
于是,我们最终的目标函数变成了:
在这里插入图片描述
由于有分母,于是使用拉格朗日乘子来消解并最终求解:
在这里插入图片描述
在这里插入图片描述

五、logistic模型

1.先讲个有趣的故事:中文将logistic模型翻译成逻辑回归模型是有问题的。因为引入时,logistic读得像逻辑相关的一个词,然后模型确实是回归模型,故翻译成了逻辑回归。但实际上,logistic是原论文题目多个单词的合并。要非要翻译成中文,应该似然对数线性判别模型

2.logistic模型的原理:(最重要的思想就是:假设似然对数是一个线性函数,从而用线性分类的思想求解概率问题)
在这里插入图片描述
有同学会奇怪单拿出一个M类是不是很不合理,实际上,第M类是我们额外加的一类,就是说原问题只有M-1类,这M类的概率分布如下进行设置:
在这里插入图片描述

其实,我们是为了得到黄色部分而特别设计的绿色部分,(之所以说是特别设计,是因为我们将绿色部分代入黄色左式,确实就能得到是一个线性分布)绿色部分的设计也有一定的原理,反正这都是前人的智慧了。
关于第M类的似然概率公式,可能有些人会感到熟悉,其实这就是sigmoid函数:
在这里插入图片描述

而对于二分类问题(我们接下来以二分类问题为例),我们的模型就是:
在这里插入图片描述
那么我们的学习目标就是:
在这里插入图片描述
而由于p(w2|x)=1-p(w1|x),这样我们的模型参数就只有w1,无需对w2进行优化,于是,我们的学习目标是:
在这里插入图片描述

然后我们确认损失函数,采用极大似然估计求解模型参数。(注意:下面的公式中代入的P概率是后验概率,但我们不说这是最大后验估计,是因为这里先验概率是常数,被忽略了)
在这里插入图片描述
在这里插入图片描述
具体的求梯度的方法这里就不详述了,了解其中大体思想即可。

六、本章小结

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值