Spark3000门徒第七课Spark运行原理及RDD解密总结

最新推荐文章于 2024-09-07 12:59:11 发布

diaoyi2735

最新推荐文章于 2024-09-07 12:59:11 发布

阅读量53

点赞数

文章标签： java 大数据

原文链接：http://www.cnblogs.com/haitianS/p/5115303.html

版权

今晚听了王家林老师的第七课Spark运行原理及RDD解密，课后作业是：spark基本原理，我的总结如下：

1 spark是分布式基于内存特别适合于迭代计算的计算框架

2 mapReduce就两个阶段map和reduce，而spark是不断地迭代计算，更加灵活更加强大，容易构造复杂算法。

3 spark不能取代hive，hive做数据仓库存储，spark sql只是取代hive的计算引擎

4 spark中间数据可以在内存也可以在磁盘

5 partition是一个数据集合

6 注意：初学者执行多个步骤要注意分步检验，不然不知哪里错了

7 var data = sc.textFile("/user") 不必写hdfs:// ，根据上下文判断

8 读文件得到HadoopRDD，去掉文件中索引，得到MapPartitionsRDD,这样一系列分片的数据分布在不同的机器。

9 移动计算而不是移动数据

另外，王家林老师说出一个消息：

用java来写spark：人才多，与javaEE整合更容易，维护更容易，所以后面课程所有例子都是同时使用Scala和Java

后续课程可以参照新浪微博王家林_DT大数据梦工厂：http://weibo.com/ilovepains

王家林中国Spark第一人,微信公共号DT_Spark

转载于:https://www.cnblogs.com/haitianS/p/5115303.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark3000门徒第七课Spark运行原理及RDD解密总结

今晚听了王家林老师的第七课Spark运行原理及RDD解密，课后作业是：spark基本原理，我的总结如下：1spark是分布式基于内存特别适合于迭代计算的计算框架2mapReduce就两个阶段map和reduce，而spark是不断地迭代计算，更加灵活更加强大，容易构造复杂算法。3spark不能取代hive，hive做数据仓库存储，spark sql只是取代hive的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。