Spark及其应用场景初探

最新推荐文章于 2024-01-18 02:04:45 发布

bcdk1188

最新推荐文章于 2024-01-18 02:04:45 发布

阅读量340

点赞数

文章标签： java spark 大数据

本文链接：https://blog.csdn.net/bcdk1188/article/details/111474448

版权

Spark及其应用场景初探

最近老大让用Spark做一个ETL项目，搭建了一套只有三个结点Standalone模式的Spark集群做测试，基础数据量大概8000W左右。看了官方文档，Spark确实在Map-Reduce上提升了很多，可是官方明确提出了在Interactive Data 方面性能提升最大。但是做ETL的数据之间是平行结构，没有任何交互，数据处理完直接就推送走了，也不用做任何缓存，因此完全体现不出来Spark的优势。具体可以用下面这个例子来说，

假设Hadoop集群中有一个文件，每行有一个随机数，我们现在需要计算这些数据的方差 (假设中间过程不会溢出)
方差公式

那么计算过程可以表示为

var file = sc.textFile("hdfs://dataset.txt")
file.persist()
var length = file.count()
var sum = file.reduce((a, b) => a+b)
var sqsum = file.map(line => line * line).reduce( (a,b) => a+b )
var variance = sqsum / length / - sum * sum /

最低0.47元/天解锁文章

bcdk1188

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark及其应用场景初探

Spark及其应用场景初探最近老大让用Spark做一个ETL项目，搭建了一套只有三个结点Standalone模式的Spark集群做测试，基础数据量大概8000W左右。看了官方文档，Spark确实在Map-Reduce上提升了很多，可是官方明确提出了在Interactive Data方面性能提升最大。但是做ETL的数据之间是平行结构，没有任何交互，数据处理完直接就推送走了，也不用做任何缓存，因此完全体现不出来Spark的优势。具体可以用下面这个例子来说，假设Hadoop集群中有一个文件，每行有一..
复制链接

扫一扫