spark
文章平均质量分 71
qq_58647543
这个作者很懒,什么都没留下…
展开
-
Spark
,这么大的数据量使用单台服务器无法处理,一是单台服务器内存空间有限,二是单台服务器处理时间过长。所以需要将数据分布式的送入多台服务器处理,而如何管理多台服务器,如何拿到运算结果,就是大数据计算引擎需要处理的事情,是工作节点,可以简单的理解为一个服务器(当然实际情况比这个复杂),其中的。内存的存取速度是明显快于磁盘的。是干什么的之后,我们还得知道它是如何实现这些功能的。进行开发的,这是一种面向对象的语言。在大数据时代中,程序需要处理的数据量可以多达。开发的时候,可以选择的语言是。等适用于不同领域的框架。原创 2023-11-21 10:53:43 · 44 阅读 · 1 评论 -
Spark-java版
如何实现初始化。原创 2023-11-21 13:25:56 · 183 阅读 · 0 评论 -
Spark分布式安装模式
把 evassh 服务器的 /usr/local 目录下的 spark 安装包通过 SCP 命令上传到 master 虚拟服务器的 /usr/local 目录下。Hadoop 集群在启动脚本时,会去启动各个节点,此过程是通过 SSH 去连接的,为了避免启动过程输入密码,需要配置免密登录。把 master 节点的 spark 安装包分发到 slave1 节点和 slave2 节点(通过 scp 命令)。2、 在 master 复制 master、slave1、slave2 的公钥。输入 jps 命令查看。原创 2023-11-21 11:16:48 · 350 阅读 · 0 评论 -
Spark on yarn 模式的安装与部署
yarn 是一种统一的资源管理机制,可以通过队列的方式,管理运行多套计算框架。Spark on Yarn 模式根据 Dirver 在集群中的位置分为两种模式:一种是 Yarn-Client 模式,另一种是 Yarn-Cluster 模式。负责将集群的资源分配给各个应用使用,而资源分配和调度的基本单位是 Container,其中封装了集群资源(CPU、内存、磁盘等),每个任务只能在 Container 中运行,并且只使用 Container 中的资源;原创 2023-11-21 11:01:29 · 199 阅读 · 1 评论 -
spark-submit
学会将程序提交到集群上执行。原创 2023-11-21 13:26:27 · 183 阅读 · 0 评论 -
SparkContext初始化
掌握如何实现初始化。原创 2023-11-21 11:24:03 · 164 阅读 · 0 评论 -
SparkRDD及算子-python版
创建;"local"是指让Spark程序本地运行,是指Spark程序的名称,这个名称可以任意(为了直观明了的查看,最好设置有意义的名称)。集合并行化创建RDD;collect算子:在驱动程序中将数据集的所有元素作为数组返回(注意数据集不能过大);停止。sc.stop()# 1.初始化 SparkContext,该对象是 Spark 程序的入口# 2.创建一个1到8的列表List# 3.通过 SparkContext 并行化创建 rdd。原创 2023-11-21 15:08:22 · 312 阅读 · 0 评论 -
Spark Shell
Spark shell 提供了一种来学习该 API 比较简单的方式,以及一个强大的来分析数据交互的工具。在 Scala(运行于 Java 虚拟机之上,并能很好的调用已存在的 Java 类库)或者 Python 中它是可用的。原创 2023-11-21 11:25:47 · 156 阅读 · 0 评论 -
Spark local模式的安装部署
安装与配置Spark开发环境。原创 2023-11-21 11:12:17 · 151 阅读 · 1 评论