第三周学习周报

目录

摘要

Abstract

clssfication

一、案例学习

二、生成模型步骤

三、后验概率的数学推导

总结


摘要

在上周主要学习了regression的关于宝可梦预测的学习案例,这周的学习内容是clssfication的相关问题,主要是基于概率模型的分类方法,同样是以宝可梦作为学习案例,以及生成模型步骤以及后验概率的数学推导。

Abstract

Last week, I mainly studied regression learning case about Pokemon prediction. This week, I mainly studied clssfication related issues, mainly about classification method based on probability model, also taking Pokemon prediction as learning case, model generation steps and mathematical derivation of posterior probability.

clssfication

 分类是指输入一些相关信息之后,模型在诸多选择中选出最符合预期的结果。例如通过输入的信息判断是否要借钱给某人,通过输入的信息判断病人生的是什么病,通过输入的内容判断是什么文字等。

一、案例学习

本次案例是要寻找一个function可以判断输入的宝可梦的属性是18种属性中的哪一种。

怎么将其数值化作为函数的输入?
以比卡丘为例
Total:整体强度,大概的表述神奇宝贝有多强,比如皮卡丘是320
HP:生命值,35
Attack:攻击力,55
Defense:防御力,40
SP Atk:特殊攻击力,50
SP Def:特殊防御力,50
Speed:速度,90 ,数值大可以先攻击
上述7个数字组成一个向量。

宝可梦的属性预测是有意义的,因为不同属性之间的宝可梦存在属性克制这一问题。使用回归解决分类问题:binary classification(二元分类)。我们在Training时让输入为class 1的输出为1,输入为class 2的输出为-1;那么在testing的时候,regression output是一个数值,它大于0接近1则说明它是class 1,它小于0接近-1则说明它是class 2。

但是这样做存在一定的问题,首先在右侧class1中右下角的这些点,如果仍然采用绿色那条线所代表的函数进行预测,这些新加入进来的点的误差将特别的大,为了缓解由此带来的误差,绿色的线将往右下角偏移,以此减少误差。其次Regression的output是连续性质的数值,而classification要求的output是离散性质的点,我们很难找到一个Regression的function使大部分样本点的output都集中在某几个离散的点附近因此,Regression定义model好坏的定义方式对classification来说是不适用的。

比较理想的处理方法是判断input在某一function中的值并与之比较后分类,分类的损失函数,也就是统计学习方法中的0-1损失函数。

贝叶斯估计

我们将上述问题进行泛化,生成概率模型其实是先假设数据的概率分布(正态、伯努利、泊松),然后用概率公式去计算x所属于的类型p(C1​∣x),则公式如下所示:

其中P ( C 1 ) 和P ( C 2 ) 是通过类别个数的频数来计算的。

以二元分类为例,假设现在有两种分类,一种是水系,另一种是一般系。用宝可梦的水系和一般系的作为traning data,其余的用作testing data。现在traning data有79只水系,61只一般系,可计算得他们的概率。数据对应的均值和方差,我们可以通过已有的79个样本和极大似然分布得到。

Gaussian Distribution 

对于高斯函数,这里表示均值μ,表示协方差 Σ,两者都是矩阵matrix,输入vector x,得到输出的是一个sample 出x的概率密度。下图中可以看出,同样的 Σ,不同的μ,概率分布最高点的地方是不一样的。

那接下来的问题就是怎么去找出这个Gaussian 函数,只需要我们去估测出这个Gaussian的均值μ和协方差 Σ估测均值μ和协方差的方法就是极大似然估计法(Maximum Likelihood)

任意的高斯分布(任意的均值向量和协方差矩阵)都能生成图上的样本点。由于数据是独立同分布的,所以最终的概率值为各个点的概率之积。

二、生成模型步骤

使用生成模型+叶贝斯概率分布解决分类问题的三步骤:

(1)找到若干高斯模型作为解决问题的模型集。

(2)使用极大似然估计来判断一个模型的好坏。

(3)通过验证参数,选出最好的模型。

三、后验概率的数学推导

后验概率是指在获得新的信息或观测结果后,对某一事件发生的概率进行重新评估的结果。它是基于先验概率(即事件发生前的概率)和似然函数(即新信息对事件发生概率的影响)通过贝叶斯公式计算得出的。

经过最终的化简计算可以知道,生成模型 + 贝叶斯概率公式本质上是寻找参数w和b的过程,如果我们直接进行参数w和b的求解,是不是就可以简化前面那么复杂的计算过程?这也是逻辑回归算法,在下周我将学习逻辑回归算法的相关问题。

总结

本周主要学习内容是以宝可梦为案例的clssfication,通过二分类问题以及高斯分布,了解了基于概率模型的分类解决方法,在学习高斯分布的数学推导过程中明白了手动公式推导的重要性。

  • 19
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值