Spark
文章平均质量分 85
cqu_shuai
实事求是,不自以为是
展开
-
Spark入门——Spark运行架构
参考链接https://www.bilibili.com/video/BV11A411L7CK?p=19Spark运行架构Spark框架的核心是一个计算引擎,整体来说,它采用了标准master-slave的结构。下图展示了一个Spark执行时的基本结构。图形中的Driver表示master,负责管理整个集群中的作业任务调度。图形中的Executor则是slave,负责实际执行任务DriverSpark驱动器节点,用于执行Spark任务中的main方法,负责实际代码的执行工作。Driver在S原创 2021-08-15 15:20:46 · 169 阅读 · 0 评论 -
Spark入门——Spark运行环境
参考链接https://www.bilibili.com/video/BV11A411L7CK?p=11Spark运行环境Spark作为一个数据处理框架和计算引擎,被设计在所有常见的集群环境中运行,在国内工作中主流的环境为Yarn,不过逐渐容器式环境也慢慢流行起来Local模式所谓的Local模式,就是不需要其他任何节点资源就可以在本地执行Spark代码的环境,一般用于教学,调试,演示等。在IDEA中运行代码的环境称为开发环境,不一样可以在命令行中输入spark-shell启动启原创 2021-08-14 15:00:04 · 1641 阅读 · 0 评论 -
Spark入门——Hadoop与Spark
参考链接https://www.bilibili.com/video/BV11A411L7CK?p=1HadoopHadoop是由Java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架作为Hadoop分布式文件系统,HDFS处于Hadoop生态圈的最下层,存储着所有的数据,支持着Hadoop的所有服务。它的理论基础源于Google的TheGoogleFileSystem这篇论文,它是GFS的开源实现MapReduce是一种编程模型,Hadoop根据Google的Ma原创 2021-08-12 18:27:25 · 445 阅读 · 0 评论