海量数据的KNN分类、Kmeans聚类

针对海量数据,如何进行KNN分类和聚类,比如10万行的数据。

本篇给出基本思路,具体实现未介绍。


问题:如何对海量数据(5000万行)进行分类

分析:进行分类的前提是,已经有相同格式数据分类完毕;接下来,是如何将新的海量数据(5000行),进行合理分类。

思路1:bayes分类,根据数据的特征向量,计算其不同分类下的概率值,取最大概率所属类,即是分类结果。

思路2:KNN分类,计算待分类记录与已分类样本的距离值(如果已分类数量太大,可以用采用数据代替),统计近邻范围内(思想确定的近邻标准距离r)的已分类样本投票结果,选取投票值最大的作为分类结果。


问题:如何对海量数据(5000万行)进行聚类

分析:聚类的前提是,样本数据没有明确的分类归属;接下来,需要对每个样本进行类别划分。

思路1:Kmeans聚类,随机选择一个K值,迭代计算整个样本的聚类结果,画出曲线(K-总误差和),曲线斜率发生明显变化的点,即是最优K值。

思路2:对样本抽样,形成新样本;对新样本进行聚类,将样本分成几类;用决策树对每类提取规则;再返回对所有样本进行分类,最终对所有数据进行了类别确定。


异常点处理:

如果有一个点离其族群质心距离过大,比其他值都要大。

比如:100,这个族群其它点离质心的值都是10以下。

必要时,需要新建一个分类,将其归属到新的分类中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值