- 博客(4)
- 资源 (26)
- 收藏
- 关注
原创 北风网Spark2.0学习笔记
2018-7-9 =>大致介绍大数据体系框架结构图Spark和MapReduce计算模型的比较shuffle的简单介绍:shuffle:针对多个map任务的输出按照不同的分区(Partition)通过网络复制到不同的reduce任务节点上的过程。相应上图中红色框所圈的内容。由图可见Shuffle过程横跨了map,reduce两端Spark的整体架构SparkSQL和hiveSparkSQL主...
2018-07-09 16:06:55
843
原创 大数据生态圈概要介绍
1. hadoop 生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和Mapreduce下图是hadoop生态系统,集成spark生态圈。在未来一段时间内,hadoop将于spark共存,hadoop与spark...
2018-07-09 15:03:23
3828
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人