大数据技术-spark
jntcf
海量数据挖掘、大数据分析栈方案,信息安全,软件全生命周期管理……博弈无处不在,学问无处不在
展开
-
spark中的闭包与广播变量
Spark 任务调度图(以Spark Core为例) 1. DAG的应用 Spark的Job(Application),从宏观上来看处理过程大致如下:加载数据,获取RDD(或DF等) 转换数据 执行转换,获取结果并处理 整个计算过程是从上往下的(有方向),但是没有上下往复的处理(无循环),从图的角度我们可以将这个过...原创 2019-05-21 13:38:52 · 965 阅读 · 0 评论 -
大数据主流开源计算框架
大数据的存储常用HDFS(大数据存储的事实标准),计算分析用Spark(一站式大数据计算的事实标准),集群中的资源管理用Yarn或mesos。 本文主要内容如题,适合有一定基础的人查看(关于大数据big data是什么,由何而来,指导思想、3V~5V特性,环境搭建、挖掘分析及编程等,本文不涉及),,有些描述可能不是很准确,欢迎大家一起讨论交流。目录1. 大数据计算的分类...原创 2019-05-23 15:01:25 · 1725 阅读 · 0 评论