spark
dream0352
即使是不成功的尝试,也胜于胎死腹中的策略。
凭着青春对梦想的追求,在未来的路上越走越好!
展开
-
3.SparkSQL学习
sparkSQL的发展历程。A:hive and shark sparkSQL的前身是shark。在hadoop发展过程中,为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,hive应运而生,是当时唯一运行在hadoop上的SQL-on-Hadoop工具。但是,MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率原创 2017-03-17 19:17:16 · 779 阅读 · 0 评论 -
4.Spark Streaming学习
目前的大数据处理可以分为如以下三个类型。 复杂的批量数据处理(batch data processing),通常的时间跨度在数十分钟到数小时之间。基于历史数据的交互式查询(interactive query),通常的时间跨度在数十秒到数分钟之间。基于实时数据流的数据处理(streaming data processing),通常的时间跨度在数百毫秒到数秒之间。 所以说流式处理是原创 2017-03-18 14:41:46 · 1245 阅读 · 0 评论 -
1.spark简介
1.什么是Spark并行计算框架基于内存计算高容错基于DAG2.Spark生态体系图MapReduce属于Hadoop生态体系之一,Spark则属于BDAS生态体系之一3.Spark VS MapReduce为什么Spark比MapReduce快:a.磁盘IO开销:Spark中间计算结果都是基于内存,节省开销;b.排序:Spark避免Ma原创 2017-03-14 08:01:29 · 524 阅读 · 0 评论 -
2.Spark常用算子讲解
Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 2)Actio转载 2017-03-15 16:50:45 · 36349 阅读 · 4 评论