机器视觉学习准备笔记之KNN算法，基于熵增益最多的决策树，朴素贝叶斯

最新推荐文章于 2023-03-06 17:58:57 发布

熊猫啊熊猫

最新推荐文章于 2023-03-06 17:58:57 发布

阅读量326

点赞数

分类专栏：知识补充

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37909553/article/details/93931917

版权

知识补充专栏收录该内容

2 篇文章 0 订阅

订阅专栏

尽量少一些数学推理的去理解这些所谓的学习算法，主要是梳理思想和逻辑。

KNN：

在记录这个笔记之前，我先假想一个场景：

学校各班级学生集体广播体操，每个班的服装还不一样，但总有那么些个桀骜不驯的学生，偏偏不穿规定的服装，那么我们是如何判断这个学生属于哪个班级呢？很显然，当然是看他和哪个服装的班级在一起或者最近，我们就大致可判断其所在班级了，这大概就是所说的K值近邻算法了吧。

首先，他是监督学习，也就是需要依据一些已知类型的特征值情况做参考。其次，它一种分类算法，是用来分类用的。

选择k个离测试数据最近的已知数据，根据他们的分类，占比最多的类则认为属于该类。

香农熵：

在回忆决策树之前，需要先回忆信息熵，个人理解为某件事情发生需要的信息量大小。如果一件事情必然发生，则发生该事情就不需要信息量，为0，如果一件事情发生的概率越小，则发生该事情需要的信息量就越大。

假设A发生概率为Pa，B发生概率为Pb，则A和B同时发生需要的信息量为A所需信息量与B所需信息量之和。

而AB同时发生的概率则为Pab=Pa*Pb。

于是我们想到用S=f(p)来表达信息量，p为发生的概率，S为信息量，他们应该满足：

f(x*y)=f(x)+f(y),如果有高中基础则会发现，对数函数满足这个情况！

于是就有了香农熵 S=-log2 Px 因为Px 为概率，其值0到1，所以在前面加个负号，为啥是以2为底呢？其实我们会发现任何一个正数都可以满足（暂时不知道为啥是以2为底）

决策树：

首先，它也是监督学习里面的分类算法，就是基于某特征值给一堆数据分类，一直分下去类似个二叉树形状，那我们每次以哪个特征值分类最合适呢？

这个时候香农熵就起作用了，我们知道，熵越大，则确定性越小！这和我们热力学里面的熵类似，表示混乱度，熵增原理，可以了解一下。所以，我们可以利用熵值来判断，哪种分类使得分类后熵值变得最小，也就是我们的熵增益最大！这样我们可以基于最小的分类次数得到我们想要的答案。

朴素贝叶斯：

太困了，有空再回忆，语音那边平哥他们dota又要被虐了！

熊猫啊熊猫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。