K近邻与朴素贝叶斯

最新推荐文章于 2024-09-21 17:30:17 发布

鲜-橙

最新推荐文章于 2024-09-21 17:30:17 发布

阅读量2.5k

点赞数 1

分类专栏：机器学习基础算法文章标签： k近邻 knn 朴素贝叶斯

本文链接：https://blog.csdn.net/qq_30172585/article/details/79538771

版权

本文详细介绍了k近邻（knn）分类与回归的原理及其实现步骤，包括如何计算距离并选取最近邻。同时，讨论了朴素贝叶斯分类与回归，基于贝叶斯定理和特征条件独立假设。分析了原始算法在311个验证数据上的结果，指出knn算法受到数据不平衡的影响，朴素贝叶斯分类表现出较好的效果。针对knn的不足，提出了权值优化方法，提高了分类准确率。而对于朴素贝叶斯回归，通过调整拉普拉斯平滑值，提升了相关系数。文章最后探讨了knn中的距离权重选择、概率总和为1的处理以及不同距离度量的影响。

摘要由CSDN通过智能技术生成

任务简述

分类任务
如下图，数据集的X是“英语语句”，Y是该语句对应的“情绪”，情绪的可能取值有6种，任务是给定一个语句，能判断出它属于什么情绪
回归任务
如下图，数据集的X是“英语语句”，Y是该语句对应的六种情绪的可能性，情绪的可能取值有5种，任务是给定一个语句，能判断出它属于各种情绪的可能性

算法原理

A. knn分类

原理：是将训练集与测试集的数据转化成特征向量，计算测试集与训练集的向量的距离，距离越近代表特征越像，然后选取距离最近的k个向量，也就是特征最像的k个向量，取它们的标签的众数作为测试数据的预测标签
1. 训练集的x转化成相应的矩阵（例如onehot或tf），同样将测试集的x也转换成矩阵
2. 对于测试集中的一个向量，计算它与训练集的矩阵中的每一个向量进行计算得出两个向量之间的距离
3. 选出K个距离最小的向量，统计这些向量对应的标签，在这些向量对应的标签中出现最多次（多数投票原则）的那个标签即为knn分类器的预测标签。

B. knn回归

原理：是将训练集与测试集的数据转化成特征向量，计算测试集与训练集的向量的距离，距离越近代表特征越像，然后选取距离最近的k个向量，也就是特征最像的k个向量，取它们的距离的倒数作为权，乘以自身的标签概率，将k个加和最后归一化的概率作为预测概率
1. 训练集的x转化成相应的矩阵（例如onehot或tf），同样将测试集的x也转换成矩阵
2. 对于测试集中的一个向量，计算它与训练集的矩阵中的每一个向量进行计算得出两个向量之间的距离
3. 选出K个距离最小的向量，把该距离的倒数作为权重，加和权重与训练集概率的乘积，计算测试数据属于某标签的概率
4. 对得出的概率进行归一化处理，得到最终的预测概率

C. Naive Bayes分类

贝叶斯定理、特征条件独立假设就是朴素贝叶斯的两个理论基础。
$P (B | A) = P ( A | B ) P ( B ) P ( A )$ $P(B|A)=\frac{P(A|B)P(B)}{P(A)}$
对于我们的数据，我们有输入x，以及对应的概率标签y=(y1,y2,…,yk)，这样的话要算出某个x属于yk的概率，就是，上述的贝叶斯公式就转化为
$P (y k | x) = P ( x | y k )$