Classification分类-贝叶斯分类器

上篇笔记我们讨论了利用regression回归模型,根据宝可梦进化前的CP能量值预测出宝可梦进化后的CP能量值。
本篇笔记我们将利用分类模型,根据宝可梦的CP能量值、HP生命值等特征,预测宝可梦是属于水系宝可梦还是火系宝可梦。

一、regression回归

在介绍classification分类模型前,首先讨论一个问题:

能否用regression回归模型代替classification分类模型做分类问题?

(1)在理想的二分类问题上,将类别1定义为“-1”,将类别2定义为“1“,用线性回归模型是可以实现分类目的的。
在这里插入图片描述
但是实际情况下,线性分类器会被异常值影响,为照顾异常值的损失误差,从而无法正确分类:
在这里插入图片描述
(2)在处理多分类问题时,通常把:

类别1=1
类别2=2
类别3=3

这就意味着,1和2较近,1和3较远,传达了错误的信息,不利于分类结果。

所以,regression回归模型无法代替classification分类模型做分类问题。

二、贝叶斯分类器

本篇的实例是根据宝可梦的CP能量值、HP生命值等特征,预测宝可梦是属于水系宝可梦还是火系宝可梦。
即function函数的表达式为:
在这里插入图片描述
而loss function损失函数则表示为:
在这里插入图片描述

即计算预测结果和实际结果不相等的总个数。

求损失函数最优解就用到了贝叶斯公式:
在这里插入图片描述
其中,P(C│x)是“后验概率“,P(C)是”先验概率“,P(x│C)是C类的”条件概率”, P(x)是用于归一化的”证据因子”。机器学习所要实现的就是基于有限的训练样本集尽可能准确地估计出后验概率P(C│x)。

大体来讲,有两种策略:

(1)discriminative models 判别式模型

给定x,可通过直接建模P(C│x)来预测C,常见的方法有决策树、支持向量机等。

(2)generative models 生成式模型

先对联合概率分布P(x,C)建模,然后再由此获得P(C│x),这就是我们接下来要介绍的生成模型。

三、generative models 生成模型

(1)计算

我们的样本集一共有79只水系宝可梦和61只火系宝可梦:
在这里插入图片描述
现在要预测一个没有在样本集中出现过的宝可梦,属于水系的概率,根据贝叶斯公式,就是计算:
在这里插入图片描述
利用概率学的知识,我们很容易算得
在这里插入图片描述
而P(x│C1 )要怎么计算呢?由于x没有在样本集中出现过,需要利用高斯分布进行估测。
在这里插入图片描述
(2)Gaussian Distribution 高斯分布

高斯分布又叫正态分布,是一种常用的概率分布,表达式为:
在这里插入图片描述
μ是均值,∑是协方差矩阵。

假设水系宝可梦的分布满足某一高斯分布,如图中圈出的红色范围中心点就是该高斯分布的中心位置,那么待预测宝可梦根据自身特征就能预测出现在水系的概率。
于是,求待预测宝可梦X的P(x│C1 )问题就转化成估测水系宝可梦高斯分布的μ和∑,代入到上述公式中计算X在水系宝可梦分布中的概率。

那么如何找到水系宝可梦最准确的分布呢?

(3)maximum likelihood 极大似然估计

计算所有79个水系宝可梦满足某一高斯分布的概率表达式,就是把每一只宝可梦的概率相乘:
在这里插入图片描述
在这里插入图片描述
而我们要找到使得概率最大的μ和∑,即:
在这里插入图片描述
带入数据,那就是计算
在这里插入图片描述
求解极大似然估计要么计算微分,要么直接套用公式
在这里插入图片描述
(4)结果

由极大似然估计计算出最优μ,∑,带入高斯分布计算待预测宝可梦在水系分布的概率P(x│C1 ),同理可计算待预测宝可梦在火系分布的概率P(x│C2 )。计算P(C1│x):
在这里插入图片描述
如果P(C1│x)>0.5,则待预测宝可梦属于水系宝可梦。

四、结论

以上我们完成了贝叶斯分类器,值得一提的是,朴素贝叶斯方法的前提的所有的特征维度都是独立分布的。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值