大数据环境下基于R语言的数据挖掘平台之大数据处理与导出模块

最新推荐文章于 2022-11-07 14:52:03 发布

Claire_Bear7

最新推荐文章于 2022-11-07 14:52:03 发布

阅读量1.5k

点赞数

分类专栏：项目总结文章标签： R语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/claire7/article/details/46764489

版权

本文介绍了如何使用R语言和Hadoop框架处理大数据，详细阐述了Kmeans聚类与朴素贝叶斯分类的MapReduce实现过程。同时，概述了数据导出模块的功能，包括分析结果的图表、报告和数据集的导出方式。

摘要由CSDN通过智能技术生成

这篇文章总结一下大数据处理模块与导出模块：

大数据处理

功能

这个模块实现了对大数据的处理，用户选择处理方法并上传需要处理的数据集，系统将利用Hadoop集群与R对数据进行分析处理，并将结果显示给用户。

实现原理

模块使用Hadoop框架搭建了一个分布式集群，用于大数据的并行处理。并将Kmeans聚类算法与朴素贝叶斯分类算法用MapReduce编程框架实现。

Kmeans聚类算法的MapReduce化
该过程包括预处理、Kmeans聚类迭代两个过程的MapReduce化。
- 数据的预处理MapReduce化：将输入的文本文件按行切分，生成（文件行offset，一行文本）形式的键/值对。
- Kmeans聚类迭代的MapReduce化：计算当前文档与各个类簇中心距离，选择最近的中心作为新的文档中心。
  - Map阶段首先将输入的（文件行offset，一行文本）形式的键值对。Mapper类的map函数计算每一条样本距离哪个类簇中心最近，并归到距离最近的类簇中，输出（cluster,样本）的键值对。
  - Reduce阶段中Reducer类的reduce函数重新计算每个类簇的中心。当一次迭代结束后，计算类簇中心是否收敛，若收敛则结束迭代，否则继续迭代。
朴素贝叶斯的MapReduce化
该过程包括预处理、模型训练和分类三大过程的MapReduce化。
- 数据的预处理MapReduce化：将输入的文本文件按行切分，生成（文件行offsetÿ

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。