大数据常见的处理方法有哪些

最新推荐文章于 2024-05-17 16:50:19 发布

中琛源科技

最新推荐文章于 2024-05-17 16:50:19 发布

阅读量6.3k

点赞数 1

文章标签：数据挖掘聚类机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30187071/article/details/123543556

版权

　　对于的处理任务，通常采用抽样策略。抽样的过程中应当分析抽样的规模，以及如何抽样才能实现类似于原数据的分布。常用的数据处理方法如下：

　　1)聚类分析：按照数据对象的相似度，把数据对象划分聚集簇，簇内对象尽量相似，簇间对象尽量相异。发现任意形状的簇、处理高维数据、具有处理噪声的能力以及聚类结果可解释、易使用是聚类分析的目标。

　　2)分类和预测：分类和数值预测是问题预测的两种主要类型。分类是一种有监督的学习过程，通过对已知的训练函数集表现出来的特性，获得每个类别的描述或属性来构造相应的分类器。

　　预测是利用数据挖掘工具建立连续值函数模型，对已有数据进行研究得出结论。

　　从技术上可分为定性预测和定量预测。定性预测是指使用者根据掌握的经验及判断力对将要预测的对象作出定性化的分析过程;定量预测是使用数学模型，对历史统计数据使用数学方法得到变量间规律性关系。

　　3)关联分析:不同事物之间看似没有任何联系或依赖但通过科学的分析方法往往能够找出这些事物间的潜在关系。关联分析通常使用关联规则频繁项集的Apriori算法分析事物之间存在的依赖或关联来找出事物间的规律性，并且通过规律性进行预测。

　　在实践中，我们得到的数据可能包含大量的缺失值、异常值等，这对数据分析是非常不利的。此时，我们需要对脏数据进行预处理，以获得标准、干净和连续的数据，这些数据可以用于数据分析、数据挖掘等。

中琛源科技

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。