大数据开发

最新推荐文章于 2024-04-23 10:04:44 发布

小航冲鸭！！！

最新推荐文章于 2024-04-23 10:04:44 发布

阅读量207

点赞数 1

分类专栏：技术文章标签： spark scala java hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_51363335/article/details/120662405

版权

技术专栏收录该内容

9 篇文章 0 订阅

订阅专栏

今天从Spark和Hadoop开始入手大数据开发，学到下面就学不走了

先总结下

Spark主要是用于数据的计算，Hadoop都是数据计算框架

Hadoop 一次性数据计算

框架再处理数据的时候，会从存储设备中读取数据，进行逻辑操作，然后将处理的结果重新存储到介质中。

先将文件里的数据打散，然后再合并，最后与磁盘交互，合成文件，但是在处理复杂的逻辑，性能是比较低的，因为Hadoop中mapper计算模型比较简单，在并行运行数据处理，数据挖掘等等时，因为里面只有mapper和reducer，各个job之间靠磁盘交互，所有非常影响性能。所以不适合循环迭代式数据流处理

基于以上，反观Spark,里面提供了非常丰富的数据处理模型，而且它可以基于内存，来做数据集的多次迭代，所以它就会更好的支持数据挖掘算法和图形计算。

Spark把作业job的计算结果放在了内存当中，为下一次计算提供了非常便利的数据处理的方式，效率速度非常高，但是问题是，Spark部署在共享的数据级中会出现资源不足的问题，因为Spark所占的资源会更大一些，所以Spark不推荐和Hadoop堆栈的其他组件一起使用。

Spark和Hadoop的根本差异是多个作业之间的数据通信问题：Spark多个作业之间数据通信是基于内存，而Hadoop是基于磁盘

磁盘的IO会影响性能（IO就是输入输出）

Spark是有应用场景的（本来有图的，上传不了）

这有了解到Spark是由Scala语言开发的，当然没学，就去听了下Scala的网课，发现Scala又是Java的改进基础，又去学习Java，哈哈哈哈哈因崔斯汀！今天就温故学习了IDEA建模块，写了个小Java程序helloworld，有点晚了明天继续，每天进步一点点！！！

小航冲鸭！！！

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据开发

今天从Spark和Hadoop开始入手大数据开发，学到下面就学不走了先总结下Spark主要是用于数据的计算，Hadoop都是数据计算框架Hadoop 一次性数据计算框架再处理数据的时候，会从存储设备中读取数据，进行逻辑操作，然后将处理的结果重新存储到介质中。先将文件里的数据打散，然后再合并，最后与磁盘交互，合成文件，但是在处理复杂的逻辑，性能是比较低的，因为Hadoop中mapper计算模型比较简单，在并行运行数据处理，数据挖掘等等时，因为里面只有mapper和reducer，各
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。