5-概率分类模型

最新推荐文章于 2024-06-09 08:14:39 发布

王蒟蒻

最新推荐文章于 2024-06-09 08:14:39 发布

阅读量847

点赞数 2

分类专栏： # 李宏毅机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41413511/article/details/115960018

版权

李宏毅机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

概念

分类要找一个 $f u n c t i o n$ 函数，输入对象 $x$ 特征，输出是该对象属于 $n$ 个类别中是属于哪一个。

例子1：比如信用评分【二分类问题】
- 输入：收入，储蓄，行业，年龄，金融史…
- 输出：是否拒绝拒绝贷款
例子2：比如医疗诊断【多分类问题】
- 输入：当前症状，年龄，性别，医疗史…
- 输出：患了哪种疾病

总体步骤

在这里插入图片描述

模型选择

回归模型

类别1：相当于target是 $1$ 。
类别2：相当于target是 $- 1$ 。
然后训练模型：因为是个数值，如果数值比较接近 $1$ ，就当作类别1，如果数值接近 $- 1$ ，就当做类别2。
无法得到好结果，回归方式对于分类问题来说是不适用的

其他模型

将 $f u n c t i o n$ 中内嵌一个函数 $g (x)$ ，如果大于0，就认识是类别1，否则认为是类别2。损失函数的定义就是，如果选中某个 $\ f(x)$ ，在训练集上预测错误的次数。当然希望错误次数越小越好。
但是这样的损失函数没办法解，这种定义没办法微分。

概率模型

原理

在这里插入图片描述

知道红色方框的值，就可以计算出给一个 $x$ ，它是属于哪个类型的， $P(C_1|x)$ 和 $P(C_ 2 | x)$ ，哪个类别的概率大就属于哪个类别。接下来就需要从训练集中估测红色方框中的值。这一套想法叫做生成模型（Generative Model）。因为有了这个模型，就可以生成一个 $x$ ，可以计算某个 $x$ 出现的概率，知道了 $x$ 的分布，就可以自己产生 $x$ 。

举例

二分类问题，根据神器宝贝属性值判断该神奇宝贝是属于水系宝贝还是不是
通过训练集的数据可以计算出 $P(C_1)$ 和 $P(C_2)$
- 水属性占比： $P(C_1) = 0.56$
- 普通属性占比： $P(C_2) = 0.44$
计算 $P(x|C_1)$ ，假设水系宝贝的属性值符合高斯分布，然后利用训练集上79个神器宝贝找到该高斯分布的方程，然后把x带进去，计算出被挑选出来的概率
完了就可以进行分类判断了

高斯分布

https://blog.csdn.net/lin_limin/article/details/81024228

最大似然估计

判断怎么找到最优的高数函数
将使得 $L(\mu,\sum)$ 最大的 $L(\mu,\sum)$ 记做 $(\mu^∗,\sum^∗)$ ， $(\mu^∗,\sum^∗)$ 就是所有 $L(\mu,\sum)$ 的 Maximum Likelihood（最大似然估计）

模型优化

上面结果

结果是测试集上正确率只有 47% 。当然这里只处理了二维（两个属性）的情况，那在7维空间计算出最大释然估计值，此时μμ是7维向量，ΣΣ是7维矩阵。得到结果也只有54% 的正确率

改进

给描述这两个类别的高斯分布相同的协方差矩阵
修改似然函数为 L(μ1,μ2,Σ)L(μ1,μ2,Σ)。μ1,μ2μ1,μ2 计算方法和上面相同，分别加起来平均即可；而ΣΣ的计算有所不同。
正确率提高到了73%。

后验概率

Sigmoid function
在这里插入图片描述

进行一系列的化简后

在这里插入图片描述

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
1
评论
5-概率分类模型

概念分类要找一个 functionfunctionfunction 函数，输入对象 xxx 特征，输出是该对象属于 nnn 个类别中是属于哪一个。例子1：比如信用评分【二分类问题】输入：收入，储蓄，行业，年龄，金融史…输出：是否拒绝拒绝贷款例子2：比如医疗诊断【多分类问题】输入：当前症状，年龄，性别，医疗史…输出：患了哪种疾病总体步骤模型选择回归模型类别1：相当于target是 111。类别2：相当于target是 −1-1−1。然后训练模型：因为是个数值，如
复制链接

扫一扫

专栏目录

王蒟蒻 CSDN认证博客专家 CSDN认证企业博客

码龄7年

276: 原创

1万+: 周排名

100万+: 总排名

47万+: 访问

: 等级

5950: 积分

4104: 粉丝

628: 获赞

106: 评论

2613: 收藏

私信

关注

热门文章

分类专栏

最新评论

1602液晶移动
wasdzxcvbnm1512: 很棒，我按书上的抄都没抄明白
简单梳理软件维护相关知识
Ustinian661: 话说你电软件工程期末有没有真题
跨考电子信息408一点经验
viewmin: 楼主好，我也是0基础跨408，最近学得比较痛苦。我本科是文科专业，跨考前完全没有接触过408以及相关的先修课程，今年2月决定跨考，当月买了王道4本书，之后陆陆续续听网课、做题，但计组有一些章节因为太难我一轮就没有看。7月中开始第二轮，发现所有的知识点基本都忘了，光看书一类的文本几乎是回忆不起来的，得看视频，导致进度很慢，自信心也很受挫，选择题也感觉和重做没差，数据结构的大题也不会下笔。这两天特别焦虑，觉得自己都这时候了都不记得知识点、不把书看一遍做题就动不了笔、正确率和第一轮比还没有什么提升，而且我又比较完美主义爱钻牛角尖，王道书里很多题体现的知识点感觉学得不是很透彻，很不扎实，心里就很虚，总在自我否定。但我又觉得除了自己加油学可能也没有别的办法，唉，楼主作为过来人能分享下你当时有这种状态吗，怎么克服呢
使用深度神经网络训练手写数字识别
shriny3: 请问run_index为什么每次运行都增加啊，他不是一直保存在run_001里面吗
C51串口的SCON寄存器及工作方式
calm-luq: 错了吧，手册写的是rb8为0则ri不被激活

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

王蒟蒻 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。