数模数据中缺失值补充问题

最新推荐文章于 2023-06-15 17:12:36 发布

Gin_loves_math

最新推荐文章于 2023-06-15 17:12:36 发布

阅读量1.5k

点赞数 5

分类专栏：数模文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Gin_loves_math/article/details/120742765

版权

数模专栏收录该内容

2 篇文章 0 订阅

订阅专栏

类型一：KNN（k-nearest neighbor）算法

一．KNN（k-nearest neighbor）算法的具体思想，流程及优劣
k指的是离此点最近的k个点，用这k个点的值估计此点的缺失值（常用平均值法）。
流程：
1）计算已知类别数据集中的点与当前点之间的距离（欧式距离）
2）按距离递增次序排序
3）选取与当前点距离最小的k个点
4）统计前k个点所在的类别出现的频率
5）返回前k个点出现频率最高的类别作为当前点的预测分类

二．K值确定：
使用十重交叉验证：在得出k=1，2……的填好缺失值的数据后，对于每一个k对应的数据集，将数据集分成十份，其中一份轮流作验证集，其余九份作训练集，从而得出在此k下，KNN算法的平均准确率，再对不同的k对应的平均准确率大小进行比较从而得出k的优劣。

此k值取法存在的问题：此方法中得出了好几个k对应的填好缺失值的数据集，先不论交叉验证的复杂度，单单处理某个k值条件下的缺失值就已经相当复杂了，何况是处理好几个k对应的缺失值数据集。

三．距离的选择：
（1）一般选择欧式距离：
欧式距离的优势：坐标轴正交旋转时，欧式距离是保持不变的
使用欧式距离时需要注意的：变量量纲不同或测量值范围相差悬殊，应该先进行数据标准化，再计算。

（2）也常使用曼哈顿距离：两个样本同一特征分量值差值的绝对值之和

其中x，y是点，，（i=1,2……）是两点的分量。
其优势是简化了计算，消除在计算欧氏距离开平方过程中取近似值而带来的误差

四．算法的优劣性
优势：
1、简单有效
2、重新训练代价低
3、算法复杂度低
4、适合类域交叉样本
5、适用大样本自动分类
劣势:
1、类别分类不标准化
2、输出可解释性不强
3、计算量较大，在分析大型数据集时会变得非常耗时，因为它会在整个数据集中搜索相似数据点。
4、在高维数据集中，最近与最远邻居之间的差别非常小，因此KNN的准确性会降低。

类型二：均值插补

如果样本属性的距离是可度量的，则使用该属性有效值的平均值来插补缺失的值；如果的距离是不可度量的，则使用该属性有效值的众数来插补缺失的值。

关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
数模数据中缺失值补充问题

类型一：KNN（k-nearest neighbor）算法一．KNN（k-nearest neighbor）算法的具体思想，流程及优劣k指的是离此点最近的k个点，用这k个点的值估计此点的缺失值（常用平均值法）。流程：1）计算已知类别数据集中的点与当前点之间的距离（欧式距离）2）按距离递增次序排序3）选取与当前点距离最小的k个点4）统计前k个点所在的类别出现的频率5）返回前k个点出现频率最高的类别作为当前点的预测分类二．K值确定：使用十重交叉验证：在得出k=1，2……的填好缺失值
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。