![](https://img-blog.csdnimg.cn/2019092715111047.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark学习笔记
自学笔记
throws-Exception
这个作者很懒,什么都没留下…
展开
-
Spark学习笔记(五)——Flume日志收集、Flume安装配置、工作流程、avro source、taildir source、HDFS sink、拦截器(Interceptors)
FlumeFlume日志收集一、Apache Flume简介二、Flume架构三、Flume安装配置1、安装2、首次测试四、Flume学习1、Flume工作流程2、Flume构成五、Source1、exec source2、spooling directory source3、http source4、avro source5、taildir source六、channel七、Sink1、avro sink2、HDFS sink3、hive sink八、Flume Sink组九、拦截器(Intercepto原创 2020-08-20 19:37:03 · 484 阅读 · 0 评论 -
Spark学习笔记(四)——SparkStreaming、DStream、Receivers、编程实例、整合Flume、整合Kafka、整合Spark SQL
Spark Streaming基于Spark Streaming的流数据处理和分析一、流是什么二、Spark Streaming1、简介2、流数据处理框架3、内部工作流程三、StreamingContext1、创建2、入门 wordcount3、transform包装四、DStream1、概念2、Input DStreams与接收器(Receivers)3、Dstream创建(内建流式数据源)4、DStream支持的转换算子五、SparkStreaming编程实例1、HDFS2、Spark Streamin原创 2020-08-20 12:21:57 · 374 阅读 · 0 评论 -
Spark学习笔记(三)——SparkSQL(DataSet、DataFrame、hive集成、连接mysql)
Spark SQLSpark SQL精华及与Hive的集成一、Spark SQL简介1、SQL on Hadoop2、Spark SQL前身3、Spark SQL架构4、Spark SQL运行原理5、Catalyst优化器二、Spark Dataset API1、创建2、Dataset3、演练三、Spark DataFrame API1、介绍2、对比3、创建4、常用操作5、RDD和DataFrame转换四、Spark SQL操作外部数据源1、Parquet文件2、集成hive3、RDBMS表Spark S原创 2020-08-17 09:04:31 · 411 阅读 · 0 评论 -
Spark学习笔记(一)——基础和架构、安装配置、Spark架构设计、Spark API、RDD、RDD操作、RDD转换算子、RDD动作算子
Spark基础和架构Spark基础和架构一、Spark和Hadoop的比较二、Spark优势三、Spark技术栈四、Spark环境部署1、安装配置2、测试五、Spark架构设计1、运行架构2、运行基本流程3、核心组件六、Spark API1、SparkContext2、SparkSession3、RDD核心七、RDD1、RDD概念2、五大特性3、RDD与DAG4、RDD编程流程5、RDD的创建(1)使用集合创建RDD(2)通过加载文件产生RDD(3)创建PairRDD的方法(4)其他创建RDD的方法八、RD原创 2020-08-10 19:21:32 · 337 阅读 · 0 评论 -
Spark学习笔记(二)——分布式计算原理
Spark分布式计算原理一、Spark WordCount运行原理图中过程解析A:val lines: RDD[String] = sc.textFile("hdfs"://)//这行代码会生成两个RDD(HadoopRDD、MapPartitionsRDD)//将内容分词后压平B:val words: RDD[String] = lines.flatMap(.split(" "))//这行代码通过flatMap生成一个新的RDD//将单词和1组合到一起C:val pairs: RDD[原创 2020-08-10 19:25:52 · 631 阅读 · 0 评论