k近邻算法经典案例_[特邀论文]|一种面向不确定标签样本的K近邻高效决策算法...

最新推荐文章于 2022-11-04 08:15:00 发布

设计圈

最新推荐文章于 2022-11-04 08:15:00 发布

阅读量293

点赞数

文章标签： k近邻算法经典案例

本文链接：https://blog.csdn.net/weixin_35711352/article/details/112075649

版权

本文探讨了K-近邻算法在处理标签不确定性时的问题，并提出了一种新的算法UCEBT，该算法结合Dempster-Shafer证据理论和边界树模型，提升了处理不确定标签样本的决策效率。

摘要由CSDN通过智能技术生成

点击上方蓝字关注我们

本文为“智能计算新技术专辑”第1篇——《一种面向不确定标签样本的K-近邻高效决策算法》一文的长摘要，欢迎关注、转发，分享给更多读者。

齐晴, 沈正飞, 曹健, 应俊, 赵龙. 一种面向不确定标签样本的K-近邻高效决策算法[J]. 应用科学学报, 2020, 38(5): 659-671.

摘要

基于案例的决策是一种直接依据过去的历史案例对当前案例进行分类或者指标预测的方法，K-近邻算法就是一种广泛应用的基于案例的决策模型，它针对待分类样本寻找最相似的K个样本，利用它们的标签判定待分类样本的类别。

作为一种经典的机器学习算法，K-近邻算法具有较好的效果，因而得到了普遍的应用，研究者们也不断深化K-近邻方法算法的模型。在K-近邻算法中，需要为待分类样本与每个历史样本计算距离并进行比较从而能够找到最相近的k个历史样本，随着历史案例库的不断扩大，K-近邻算法的运行效率将急剧下降。另一方面，传统的K-近邻算法中，假定历史样本上的标签是唯一的和正确的。然而，在某些场景下，历史样本的标签并不一定就是唯一正确的，也就是说，标签具有一定的不确定性。在K-近邻算法中，历史案例上需要有标签，而在现实应用中，标签本身有一定的不确定性。

该文章详细地讨论了现有的基于K-近邻算法忽略了样本标签不确定性这一问题，并基于 Dempster-Shafer 证据理论对标签不确定性进行建模以改善预测的性能，在此基础上结合边界树模型提高模型的运行效率提出了一种面向不确定标签样本的边界树kNN算法(Uncertain Label based Boundary Tree Model, UCEBT)。UCEBT的基本过程如下：

设输入的待预测节点为Query节点(图2中红色圆圈)，表示该样本的特征向量。

步骤1，初始化。首先在数据集中任意选取一点为边界树的根节点，例如，图中的节点为根节点。根节点是递归遍历过程的起始节点。

步骤2，在决策树中进行遍历。从根节点确定是否转移到孩子节点。一方面需要转移的到孩子节点中与Query节点距离最近的节点，UCEBT中又加入了样本标签不确定性对转移策略的影响，综合了两种因素后，根据遍历过程，可得到样本集合的路径。例如上例中，该集合中包括了五个样本点。

步骤3，根据对待预测样本进行分类。将路径上的历史样本及其标签看成证据，这样就可以利用证据理论获取结论。然而实际情况下，标签的本身有一定的不确定性。UCEBT中用信息熵UC来表示度量标签不确定性，提出了一个新的基本概率指派BPA函数。

步骤4，结束步骤。如果对该算法的执行发生在训练阶段，即待预测样本的标签已知，那么还要根据以下条件决定是否将待预测的节点纳入到边界树中:

1. 对该节点的预测分类与其实际分类不一致；

2. 遍历阶段的终止节点的孩子的数量小于预设置的边界树的规模因子。

则将该节点纳入到树中。

对UCEBT进行的实验验证表明，该方法一方面考虑了标签的不确定性，另一方面提高了传统的K-近邻算法的决策效率。

实验室介绍

上海交通大学协同智能技术实验室(Collaborative Intelligence Technology Lab, CIT)的主要研究方向为智能数据分析，网络与服务计算，协同信息系统。实验室负责人为曹健教授。近五年来主持项目近30项，其中包括多项国家重点研发计划/863课题、国家自然科学基金课题，上海市科委重点项目，并和国内外单位如摩根士丹利、三星、上港集团、携程、瑞金医院等进行合作研究。成果应用于智能运维、个性化旅游服务、金融服务和个性化医疗领域。获得省部级科技进步奖励7项。近些年，实验室在重要国际期刊(包括TPDS、TKDD、TOIS、TSC、TAAS、TWeb、TOMM、VLDBJ、WWWJ等)和重要国际会议(如KDD、VLDB、INFOCOM、WWW、AAAI、IJCAI、IEEE ICWS、IPDPS、WSDM、ICSOC、DASFAA、ICDM等)发表论文300多篇。

END

点一下阅读原文了解更多资讯