![](https://img-blog.csdnimg.cn/ca4498af6cd749a0aa44c056e5f03bc3.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark
文章平均质量分 94
计算引擎
落落free
这个作者很懒,什么都没留下…
展开
-
Spark基础:第二章 spark集群安装
第1章Spark集群安装文章目录第1章Spark集群安装1.1集群角色1.2机器准备1.3下载Spark安装包1.解压安装包到指定位置2.重命名(mv)3.删除原压缩包1.4配置Spark1.将slaves.template复制为slaves2.将spark-env.sh.template复制为spark-env.sh3.将配置好的Spark文件拷贝到其他节点上4.Spark集群配置完毕5.查...原创 2019-04-27 11:00:28 · 356 阅读 · 0 评论 -
Spark Core:第三章 spark shuffle
Spark Core:第五章 spark shuffle文章目录Spark Core:第五章 spark shuffle一、HashShuffle1. 普通机制2. 合并机制二、SortShuffle1. 普通机制2. bypass机制三、Shuffle 文件寻址1. 对象2. 过程四、Spark 内存管理1. 静态内存管理2. 统一内存管理五、Spark Shuffle调优—>S...原创 2019-05-26 19:30:33 · 208 阅读 · 0 评论 -
Spark Core:第四章 RDD
Spark Core:第六章 RDD文章目录Spark Core:第六章 RDD一、RDD简介1. RDD是spark的核心2. RDD基本原理3. RDD特性4. RDD的宽窄依赖二、RDD的创建1. 从文件创建2. 通过集合创建3. 从其他RDD转化(转换算子)4. 创建指定分区的RDD5. 键值对RDD三、RDD五大特性四、RDD的基本问题1.K,V格式的RDD是什么?2.sc.text...原创 2019-05-26 21:00:42 · 541 阅读 · 0 评论 -
Spark Core:第五章 共享变量
Spark Core:第七章 共享变量文章目录Spark Core:第七章 共享变量一、广播变量二、累加器三、知识点补充1. PV&UV2. 面试简答3. 端口总结—>Spark知识点总结导航<—一、广播变量1. 当Executor端使用到了Driver的变量 (1) 不使用广播变量,Executor中有多少task就有多少变量副本 (2) 使用广播变...原创 2019-05-26 21:12:08 · 202 阅读 · 0 评论 -
Kafka之一:Kafka简述
Kafka之:Kafka简述文章目录Kafka之:Kafka简述一、消息队列1. 消息队列简述2. 消息队列的特点二、Kafka简述1. 什么是Kafka2. Kafka的基本概念3. Kafka的partitions设计目的4. Kafka的Message5. Kafka设计原理实现6. Kafka的存储策略三、Kafka架构1. Kafka系统架构2. Kafka部署架构3. Kafka集...原创 2019-05-17 19:49:06 · 1000 阅读 · 0 评论 -
Kafka之二:Kafka集群的安装
Kafka之:Kafka集群的安装文章目录一、Kafka集群的安装二、Kafka命令行操作一、Kafka集群的安装1.解压、删除、重命名2.在kafka文件下建一个文件夹logsmkdir logs3.修改配置文件vim server.properties 参数解读:(修改***部分) *** #broker的全局唯一编号,不能重复 broke...原创 2019-05-17 20:38:06 · 437 阅读 · 0 评论 -
Spark Streaming之:二、基本输入源
Spark系列之:Spark Streaming基本输入源文章目录Spark系列之:Spark Streaming基本输入源一、文本文件输入源(数据实时采集)1. 基本步骤2. Spark-shell操作3. IDEA程序4. spark提交流计算任务二、socket输入源1.使用套接字流作为数据源2.编写程序3.打包上传执行三、队列流输入源一、文本文件输入源(数据实时采集)1. 基本步...原创 2019-05-23 20:12:05 · 1947 阅读 · 0 评论 -
Flume之:一、概述及安装部署
Flume概述及安装部署文章目录Flume概述及安装部署一、概述1. Flume定义2. flume的组成架构3. Flume拓扑结构4. Flume Agent内部原理二、Flume的安装1. Flume安装地址2. 安装部署Q:Error: Could not find or load main class org.apache.flume.tools.GetJavaProperty...原创 2019-05-23 20:50:29 · 325 阅读 · 0 评论 -
Spark Streaming之:三、DStream转换
Spark Streaming之:三、DStream转换文章目录Spark Streaming之:三、DStream转换1. DStream转换2. DStream转换操作状态—>Spark知识点总结导航<—1. DStream转换a. 是Spark streaming数据的表现形式b. DStream上的原语分为Transformation(转换)和output op...原创 2019-05-31 19:17:04 · 1572 阅读 · 0 评论 -
Spark Core:第一章 Spark Shell
Spark Core:第四章 spark shell文章目录Spark Core:第四章 spark shell一、关于spark-shell二、启动spark-shell三、spark-shell中编写WordCount程序1. 启动HDFS2. 上传文件到HDFS3. spark-shell中编写程序4. hdfs命令查看结果四、IDEA中编写WordCount程序1. 配置maven配置...原创 2019-05-26 19:08:16 · 338 阅读 · 0 评论 -
Spark基础:第一章 spark概述
Spark Core:第一章 spark概述文章目录Spark Core:第一章 spark概述一、spark是什么?二、为什么用spark?1. 特点2. MapReduce 与 Spark 对比三、spark生态系统1. 原理2. 组件四、spark中的基本概念五、spark架构设计一、spark是什么?基于内存计算的大数据并行计算框架背景(1) 于2009年开发,可用于构建大...原创 2019-05-24 21:01:50 · 585 阅读 · 0 评论 -
Spark Core:第二章 执行spark程序
Spark集群执行程序:计算圆周率文章目录Spark集群执行程序:计算圆周率一、Standalone模式1. Standalone-client 模式提交任务2. Standalone-cluster 模式提交任务3. Standalone-client 模式与Standalone-cluster 模式的对比二、Yarn模式1. Yarn-client 模式提交任务2. Yarn-cluste...原创 2019-05-02 15:44:50 · 425 阅读 · 0 评论 -
Spark Core:第二章 spark集群遇到的问题解决
spark集群遇到的问题解决文章目录spark集群遇到的问题解决Q1:Standalone模式提交任务Q2:YARN模式提交任务Q3:Yarn application has already ended!Q4:执行Yarn模式Q5:webui端的alive worker节点显示为0Q1:Standalone模式提交任务错误描述:19/05/01 05:34:01 ERROR Spa...原创 2019-05-02 18:49:03 · 887 阅读 · 0 评论 -
Spark Streaming之:一、概述介绍
Spark系列之:Spark Streaming(1)文章目录Spark系列之:Spark Streaming(1)一、流计算简介1. 流数据的特征2. 流计算3. 流计算框架4. 流计算的处理流程二、Spark Streaming1. Spark Streaming的设计2. Spark Streaming与Storm的对比3. 从“Hadoop+Storm”架构转向Spark架构4. Sp...原创 2019-05-13 18:06:19 · 425 阅读 · 0 评论 -
Spark SQL之:概述及操作应用
Spark系列之:Spark SQL(2)文章目录Spark系列之:Spark SQL(2)四、RDD转换为DataFrame1. 利用反射机制解析RDD2. 使用编程方式定义RDD模式五、使用Spark SQL读写数据库(MySQL)六、使用spark sql写入MySQL数据库七、通过spark sql将数据写入hive四、RDD转换为DataFrame1. 利用反射机制解析RDD...原创 2019-05-10 15:28:00 · 374 阅读 · 0 评论 -
Kafka之三:Kafka集群工作流程
Kafka之三:Kafka集群工作流程文章目录Kafka之三:Kafka集群工作流程一、工作流程分析1. producer写入流程2. 分区(Partition)3. 副本(Replication)4. Broker 保存消息5. Zookeeper存储结构二、Kafka消费过程分析1. 高级API2. 低级API3. 消费组4. 消费方式5. 消费者组案例一、工作流程分析1. prod...原创 2019-05-21 12:40:01 · 1922 阅读 · 0 评论 -
Kafka之四:Kafka与Streaming集成
Kafka之四:Kafka与Streaming集成文章目录Kafka之四:Kafka与Streaming集成1. 修改IEDA的maven配置2. 程序一3. 程序二:统计次数4. 提交任务可能遇到的错误spark官网Kafka作为spark Streaming的一种输入源,当Kafka和Streaming集成时充当消费者角色。(请了解Kafka命令操作)1. 修改IEDA的ma...原创 2019-05-21 12:57:28 · 701 阅读 · 0 评论 -
Spark知识点总结导航
Spark知识点总结导航文章目录Spark知识点总结导航- Spark Core第一章 Spark概述- Spark SQL- Spark Streaming- Kafka- Flume- Spark Core第一章 Spark概述- Spark SQL- Spark Streaming- Kafka- Flume...原创 2019-05-24 20:42:40 · 664 阅读 · 0 评论 -
Flume之:二、企业开发案例
Flume之:二、企业开发案例文章目录Flume之:二、企业开发案例三、企业开发案例1. 监控端口数据官方案例2. 实时读取本地文件到HDFS案例3. 实时读取目录文件到HDFS案例4. flume监控Kafka—>Spark知识点总结导航<—三、企业开发案例1. 监控端口数据官方案例(1) 案例需求:首先,Flume监控本机44444端口,然后通过telnet工具向本...原创 2019-05-31 19:48:15 · 239 阅读 · 0 评论