spark
文章平均质量分 84
大数据专家
Just do IT.
展开
-
Spark-On-YARN
Spark-On-YARN官方文档http://spark.apache.org/docs/latest/running-on-yarn.html2.配置安装安装hadoop:需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上。 安装Spark:解压Spark安装程序到一台服务器上,修改spark-env.sh配置文件,spark程序...原创 2018-08-03 10:40:36 · 484 阅读 · 0 评论 -
spark streaming
Spark Streaming 课程目标 掌握Spark Streaming的原理 熟练使用Spark Streaming完成流式计算任务 Spark Streaming介绍 Spark Streaming概述 什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark...原创 2018-08-03 10:39:59 · 1159 阅读 · 0 评论 -
编译spark源码并导入到IDEA中
编译spark源码并导入到IDEA中目的 根据需要自定义编译spark相应的模块 修改spark源码并重新编译spark 环境需求 操作系统为CentOS6.x 64bit,安装了桌面 内存4G以上最佳 下载IDEA的Linux版本,用于修改Spark源码 步骤 安装JDK 安装Maven 下载spark源码 教学...原创 2018-08-02 00:10:25 · 1135 阅读 · 0 评论 -
spark RDD
Spark计算模型目标 熟练使用RDD的算子完成计算 掌握RDD的原理 弹性分布式数据集RDD RDD概述 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允...原创 2018-08-02 00:10:10 · 434 阅读 · 0 评论