数模数据中缺失值补充问题

类型一:KNN(k-nearest neighbor)算法

一.KNN(k-nearest neighbor)算法的具体思想,流程及优劣
k指的是离此点最近的k个点,用这k个点的值估计此点的缺失值(常用平均值法)。
流程:
1) 计算已知类别数据集中的点与当前点之间的距离(欧式距离)
2) 按距离递增次序排序
3) 选取与当前点距离最小的k个点
4) 统计前k个点所在的类别出现的频率
5) 返回前k个点出现频率最高的类别作为当前点的预测分类

二.K值确定:
使用十重交叉验证:在得出k=1,2……的填好缺失值的数据后,对于每一个k对应的数据集,将数据集分成十份,其中一份轮流作验证集,其余九份作训练集,从而得出在此k下,KNN算法的平均准确率,再对不同的k对应的平均准确率大小进行比较从而得出k的优劣。

此k值取法存在的问题:此方法中得出了好几个k对应的填好缺失值的数据集,先不论交叉验证的复杂度,单单处理某个k值条件下的缺失值就已经相当复杂了,何况是处理好几个k对应的缺失值数据集。

三.距离的选择:
(1)一般选择欧式距离:
欧式距离的优势:坐标轴正交旋转时,欧式距离是保持不变的
使用欧式距离时需要注意的:变量量纲不同或测量值范围相差悬殊,应该先进行数据标准化,再计算。

(2)也常使用曼哈顿距离:两个样本同一特征分量值差值的绝对值之和

其中x,y是点,,(i=1,2……)是两点的分量。
其优势是简化了计算,消除在计算欧氏距离开平方过程中取近似值而带来的误差

四.算法的优劣性
优势:
1、简单有效
2、重新训练代价低
3、算法复杂度低
4、适合类域交叉样本
5、适用大样本自动分类
劣势:
1、类别分类不标准化
2、输出可解释性不强
3、计算量较大,在分析大型数据集时会变得非常耗时,因为它会在整个数据集中搜索相似数据点。
4、在高维数据集中,最近与最远邻居之间的差别非常小,因此KNN的准确性会降低。

类型二:均值插补

如果样本属性的距离是可度量的,则使用该属性有效值的平均值来插补缺失的值;如果的距离是不可度量的,则使用该属性有效值的众数来插补缺失的值。

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值