橙色旋涡-CSDN博客

原创 Spark五之Structured-Streaming

文章目录Structured Streaming简介快速入门Programming Model(编程模型)1.输入表2.结果表3.输出方式Kafka SourceForeach（单行）|ForeachBatch（多行） sink(输出)foreach sink 会遍历表中的每一行, 允许将流查询结果按开发者指定的逻辑输出。ForeachBatch Sink 是 spark 2.4 才新增的功能, 该功能只能用于输出批处理的数据。基于 event-time 的窗口操作基于 Watermark 处理延迟数据S

2021-08-22 21:38:14 2998

原创 Spark四之Spark SQL

文章目录Spark SQL一、Spark SQL概述1.什么是DataFrame2.什么是DataSet二、Spark SQL编程1.DataFrame读取json文件1.1 创建DataFrame1.2 SQL风格语法 [重点]1.3 DSL风格语法1.4 RDD转换为DataFrame[重要]1.5 DataFrame转换为RDD2.DataSet2.1 创建DataSet2.2 RDD转换为DataSet2.3DataFrame转换为DataSet2.4 DataSet转换为RDD3.DataFra

2021-08-22 21:28:40 681

原创 Spark三之Spark Streaming

Spark Streaming一、Spark Streaming概述Spark Streaming用于流式数据(实时数据)的处理。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如：map、reduce、window等进行运算。而结果也能保存在很多地方，如HDFS，数据库等。流式数据（无限数据集）：源源不断产生的数据Kafka(为流式数据处理存储数据) —> spark stre

2021-08-22 21:16:01 592

原创 Spark二之RDD

一、Spark RDD 概述Resilient Distributed Dataset(http://spark.apache.org/docs/latest/rdd-programming-guide.html)回顾Spark 程序，一般都包含一个Driver Program用于运行main函数，在该函数中执行着各种各样的并行操作。其中在Spark中有重要的概念RDD。该RDD是一个带有分区的分布式数据集，将数据分布存储在Spark集群的各个节点。当对RDD做任何操作，该操作都是并行的。RDD

2021-08-22 20:44:18 494

原创 Spark一之基础

文章目录Spark 基础一、Spark的介绍1.定义2.Spark VS MapReduce3.Spark内置模块二、安装Spark1.Spark相关地址2.重要角色2.1 Driver/Driver Program（驱动器）2.2 Executor（执行器）2.3 Spark的提交流程3. Standalone模式（伪分布式）4. Spark On Yarn模式4.1Yarn与Standalone的区别5.JobHistoryServer配置（查看历史运行任务）三、开发部署第一个Spark程序四、本地模式

2021-08-22 20:31:23 479

原创 Scala

Scala一、概述1.Scala是一门多范式的静态类型编程语言,Scala支持面向对象和函数式编程2.Scala源代码(.scala)会被编译成java字节码(.class)，然后运行在JVM之上，并可以调用现有的Java类库，实现两种语言的无缝对接。 scala的作者叫马丁，在Java语言中建立了新的语言，也就是scala。 jdk1.5(泛型) jdk1.8(lamdba stram),这个家伙不单设计了scala，还推动了Java的发展。我们学习scala的原因：由于spar

2021-08-22 16:09:47 583

原创 Kafka

Kafka文章目录Kafka一、概述1.定义2.消息队列 MQ(先进先出)3.消息队列的两种模式4.Kafka基础架构二、安装三、常用命令四、Kafka JAVA API1.Producer API2.Consumer API五、Kafka架构深入1. Kafka工作流程及文件存储机制2. Kafka生产者之分区策略3. Kafka生产者之数据可靠性保证4. Kafka生产者之幂等性及消费较早的数据5. Kafka消费者之消费方式6. Kafka消费者之分区分配策略7. Kafka消费者之offset的维

2021-08-22 15:54:22 427

原创 Flume采集工具

文章目录Flume一、概述1.Flume定义2.Flume优点3.Flume组成架构4.Flume组件二、安装1.安装地址2.安装步骤三、企业开发案例1.监控端口数据案例2.实时读取本地文件到HDFS案例注意事项：时钟同步问题3.实时读取目录文件到HDFS案例4.单数据源多出口案例(选择器在第六章节讲解)5.单数据源多出口案例(Sink组)6.多数据源汇总案例7.Taildir Source多目录断点续传（flume1.7才推出，重要级别）四、Flume的四种拓扑图1.串行模式2. 单Source多Chan

2021-07-11 14:03:59 763

原创 Apache Hive

文章目录Apache HiveMySQL-5.6离线安装MySQL之密码过期问题Hive概述为什么有Hive简介架构Hive的安装说明1. 启动 hadoop2. 本地启动hive3.Hive命令行4.启动Hive方式5.JDBC访问HiveHive数据类型复杂类型Hive数据导入1 默认分隔符2 自定义分隔符3. JSON分割符4 CSV格式映射5 正则分隔符Hive中表分类管理表（内部表）外部表分区表创建分区表分桶表复制表结构修改表清空表删除结果写出到文件系统HQL高级（Hive的SQL语言）简单查询H

2021-07-11 12:02:13 4728

原创 HBase数据库

文章目录HBaseRDBMS（关系型数据库--MySQL|Oracle）问题简介什么情况下需要HBase以及为什么需要HBaseHBase特点HBase和RDBMS对比HBase表逻辑结构数据相关概念HBase架构体系(物理结构)架构相关概念HRagionServerHMasterZookeeperHRegionStoreHBase单机版安装下载准备安装HBase 命令1. 客户端进出命令2. namespace的管理命令（相当于数据库中DataBase）3. 表的操作（table）4.表数据操作（增删改查

2021-07-11 11:40:37 1349

原创 Zookeeper

文章目录Zookeeper1. 简介2. Zookeeper场景需求需求1：（监听器）需求2：（文件系统）需求分析33.Zookeeper作用4. 特点5. 集群角色简介leader(主机)是zookeeper集群的核心。follower(从机)observer(观察者，了解)6.投票选主流程Zookeeper的安装与使用1. 集群规划2.安装3. ZKshell文件系统监听通知4. zkShell命令Java访问Zookeeper1. 依赖导入2. 连接zookeeper3. 文件系统相关1. 获得子节点

2021-06-12 16:58:04 510 3

原创 Hadoop之MapReduce

文章目录Hadoop之MapReduceMapReduce入门MapReduce的核心思想MapReduce计算yarn框架(资源调度器)MapReduce特点Yarn伪分布式搭建Yarn集群搭建MapReduce编码需求：统计该文件中，每个人名字出现多少次？（word count）MapReduce2.0工作机制MapReduce-wordcount之工作流程详解MapReduce数据流转机制!MR编码准备MR编码MapReduce核心apiMapreduce补充细节生产中提交MR任务1(生产环境中)ma

2021-06-12 14:08:44 1360 1

FY_07170424的博客