6.Classification

本文探讨了分类问题的基本概念,通过将宝可梦分类为例,介绍了如何利用数值化的特征进行分类。讨论了将分类问题作为回归问题解决时存在的问题,并提出了生成模型(Generative Model)作为一种解决方案。此外,还详细说明了如何通过最大似然估计来确定高斯分布的参数,并应用于实际的分类任务中。
摘要由CSDN通过智能技术生成

接下来我们要进入一个新的主题:分类

分类的input 是一个object x ,output 是这个object 属于哪一个class。

image-20210711202102977

image-20210711202206439

需要用数字来表示一个宝可梦,才能够把它放到一个function里面;

可以把它的特性数值化(生命值,攻击力,速度…)

为了完成这个任务,我们要先收集data (例:input 皮卡丘 output点)

那怎么解这个classification 的问题?

如果classification 就当做Regression 的问题来硬解,

image-20210711202956315

这么做会遇到什么样的问题呢?

image-20210711203950414

如果你用Regression 的话,你会希望,蓝色的点都越接近1越好,所以这些远大于1的点,他其实对Regression 来说,是error,所以如果你今天拿这样两群蓝色的点跟红色的点做Regression 的时候,你得到的线不会是绿色这条,而是紫色这条。

对Regression 来说,紫色这条是一个好的function,但对classification来说绿色明显是更合适的。

因为Regression 会惩罚那些output 值太大的点,这样反而得到的结果不好。

也就是说Regression 定义好坏的标准对classification 来说 不适用

那应该要怎么做呢?

理想的做法:

image-20210711204355459

我们今天先讲另外一个方法:Generative Model

image-20210711204749001

(其实就是概率中的贝叶斯和全概率公式)

问题来了,怎么计算说,如果给我某一个class ,某一只宝可梦是从这个class sample 出来的概率呢?

比如说给一个海龟,问他是从水系sample出来的概率是多少?

(问题关键:训练集的水系神奇宝贝里面没有海龟)

image-20210712111133703

这79只里面没有海龟,但海龟是水系的概率不能为零

每一个宝可梦,都可以用一堆feature 来描述。我们把这些水系的神奇宝贝,他们的防御力,特殊防御力画出来。(每个宝可梦有七个特征,先画出来两个)

image-20210712111554754

我们可以假设这79个点是从Gaussian Distribution 里面sample出来的

现在我们要做的是根据这已知的79个点,找出Gaussian Distribution ,然后根据Gaussian Distribution 推算出79个点以外的点出现的概率

高斯分布(正态分布):

image-20210712111946039

只要找到 μ 和 Σ 就可以写出 f μ , Σ(x) 进而就可以算出该高斯分布下任一点的概率。

为了寻找 μ 和 Σ 我们使用:Maximum Likelihood(最大似然估计)

原理:每个Gaussian Distribution都有可能sample 出这79个点,但可能性不一样。

选择一个可能性最大的Gaussian Distribution。

image-20210712112634621

image-20210712213055254

有了 μ和 Σ* 我们就可以算出他们的高斯分布,就可以做分类了

image-20210712213751409

image-20210712213853271

二维空间只有47% 七维空间上,正确率只有54% 分的不是太好

改进:

比较常见的做法是不同的Gaussian Distribution共用参数。

image-20210712215919500

image-20210712220434479

注意 boundary is linear ,七维后正确率达到73%

回顾一下模型:

image-20210712220611061

• You can always use the distribution you like

For binary features, you may assume they are from Bernoulli distributions(伯努利分布).

Warning of Math

image-20210712222521338

z 应该长什么样子呢?

image-20210712223012311

image-20210712223037298

image-20210712223116996

Σ1 = Σ2 = Σ z就可以就可以简化

image-20210712223501528

如果我们可以直接找到 w 和 b 就不需要走这么麻烦的步骤了。

这个就是下节要谈到的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

与 或

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值