2020年06月_进击的Z同学

原创大数据专题

Flink目录链接Flink安装mac版

2020-06-04 19:58:29 808

转载 Apache Flink 进阶教程（七）：网络流控及反压剖析

文章目录网络流控的概念与背景为什么需要网络流控网络流控的实现：静态限速网络流控的实现：动态反馈/自动反压案例一：Storm 反压实现案例二：Spark Streaming 反压实现疑问：为什么 Flink（before V1.5）里没有用类似的方式实现 feedback 机制？TCP 流控机制TCP 流控：滑动窗口Flink TCP-based 反压机制（before V1.5）跨 TaskManager 数据传输跨 TaskManager 反压过程TaskManager 内反压过程Flink Credit

2020-06-28 20:13:00 419

转载 Apache Flink 进阶教程（六）：Flink 作业执行深度解析

文章目录Flink 四层转化流程Program 到 StreamGraph 的转化StreamGraph 到 JobGraph 的转化JobGraph 到 ExexcutionGraph 以及物理执行计划Flink Job 执行流程Flink On Yarn 模式Fink on Yarn 的缺陷引入 Dispatcher 的原因主要有两点:资源调度模型重构下的 Flink On Yarn 模式没有 Dispatcher job 运行过程在有 Dispatcher 的模式下新的资源调度框架下 single c

2020-06-28 17:47:21 513

转载 Apache Flink 进阶教程（五）：数据类型和序列化

文章目录为 Flink 量身定制的序列化框架为什么定制?Flink 的数据类型TypeInformationFlink 的序列化过程Flink 序列化的最佳实践最常见的场景实践–类型声明实践–注册子类型实践–Kryo 序列化Flink 通信层的序列化本文内容出自 Apache Flink公开课系列作者：马庆祥本文根据 Apache Flink 系列直播整理而成，由 Apache Flink Contributor、360 数据开发高级工程师马庆祥老师分享。文章主要从如何为 Flink 量身定制的序

2020-06-28 16:02:25 745

转载 Apache Flink 进阶教程（四）：Flink on Yarn/K8s 原理剖析及实践

文章目录Flink 架构概览Flink 架构概览–JobFlink 架构概览–JobManagerFlink 架构概览–TaskManagerFlink 运行时相关组件Flink on Yarn 原理及实践Yarn 架构原理–总览Yarn 架构原理–组件Yarn 架构原理–交互Flink on Yarn–Per JobFlink on Yarn–SessionYarn 模式特点Flink on Yarn 实践Flink on Kubernetes 原理剖析Kubernetes–基本概念Kubernetes–

2020-06-28 15:06:40 510

转载 Apache Flink 进阶教程（三）：Checkpoint 的应用实践

文章目录Checkpoint 与 state 的关系什么是 state什么是 keyed state什么是 operator state如何在 Flink 中使用 stateCheckpoint 的执行机制Statebackend 的分类Checkpoint 执行机制详解Checkpoint 的 EXACTLY_ONCE 语义Savepoint 与 Checkpoint 的区别本文内容出自 Apache Flink公开课系列作者：唐云(茶干)Checkpoint 与 state 的关系Check

2020-06-27 23:47:41 554

转载 Apache Flink 进阶教程（二）：Time 深度解析

文章目录前言Flink 时间语义Timestamp 和 Watermark 行为概览Timestamp 分配和 Watermark 生成Watermark 传播ProcessFunctionWatermark 处理Table API 中的时间Table 中指定时间列时间列和 Table 操作本文内容出自 Apache Flink公开课系列作者：崔星灿前言Flink 的 API 大体上可以划分为三个层次：处于最底层的 ProcessFunction、中间一层的 DataStream API 和最上

2020-06-24 17:21:03 357

转载 Zookeeper简介及核心概念

文章目录一、Zookeeper简介二、Zookeeper设计目标2.1 目标一：简单的数据模型2.2 目标二：构建集群2.3 目标三：顺序访问2.4 目标四：高性能高可用三、核心概念3.1 集群角色3.2 会话3.3 数据节点3.4 节点信息3.5 Watcher3.6 ACL四、ZAB协议4.1 ZAB协议与数据一致性4.2 ZAB协议的内容五、Zookeeper的典型应用场景5.1数据的发布/订阅5.2 命名服务5.3 Master选举5.4 分布式锁5.5 集群管理一、Zookeeper简介Zoo

2020-06-22 10:34:48 1005

转载 Kafka简介

文章目录一、简介二、基本概念2.1 Messages And Batches2.2 Topics And Partitions2.3 Producers And Consumers2.4 Brokers And Clusters一、简介ApacheKafka 是一个分布式的流处理平台。它具有以下特点：支持消息的发布和订阅，类似于 RabbtMQ、ActiveMQ 等消息队列；支持数据实时处理；能保证消息的可靠性投递；支持消息的持久化存储，并通过多副本分布式的存储方案来保证消息的容错；高吞吐率

2020-06-22 10:11:18 212

转载集群资源管理器——YARN

文章目录一、hadoop yarn 简介二、YARN架构1. ResourceManager2. NodeManager3. ApplicationMaster4. Container三、YARN工作原理简述四、YARN工作原理详述1. 作业提交2. 作业初始化3. 任务分配4. 任务运行5. 进度和状态更新6. 作业完成五、提交作业到YARN上运行一、hadoop yarn 简介Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的

2020-06-22 09:52:43 938

转载分布式计算框架——MapReduce

文章目录一、MapReduce概述二、MapReduce编程模型简述三、combiner & partitioner3.1 InputFormat & RecordReaders3.2 Combiner3.3 Partitioner四、MapReduce词频统计案例4.1 项目简介4.2 项目依赖4.3 WordCountMapper4.4 WordCountReducer4.4 WordCountApp4.5 提交到服务器运行五、词频统计案例进阶之Combiner5.1 代码实现5.2 执

2020-06-21 23:30:41 608

转载 Hadoop分布式文件系统——HDFS

文章目录一、介绍二、HDFS 设计原理2.1 HDFS 架构2.2 文件系统命名空间2.3 数据复制2.4 数据复制的实现原理2.5 副本的选择2.6 架构的稳定性三、HDFS 的特点3.1 高容错3.2 高吞吐量3.3 大文件支持3.3 简单一致性模型3.4 跨平台移植性附：图解HDFS存储原理1. HDFS写数据原理2. HDFS读数据原理3. HDFS故障类型和其检测方法一、介绍HDFS （Hadoop Distributed File System）是 Hadoop 下的分布式文件系统，具有高容

2020-06-20 23:15:27 414

转载 Apache Flink 进阶教程（一）：Runtime 核心机制剖析

文章目录1. 综述2. Flink Runtime 整体架构3. 资源管理与作业调度4. 错误恢复5. 未来展望本文内容出自 Apache Flink公开课系列作者：高赟（云骞）1. 综述本文主要介绍 Flink Runtime 的作业执行的核心机制。本文将首先介绍 Flink Runtime 的整体架构以及 Job 的基本执行流程，然后介绍在这个过程，Flink 是怎么进行资源管理、作业调度以及错误恢复的。最后，本文还将简要介绍 Flink Runtime 层当前正在进行的一些工作。2. F

2020-06-19 11:59:02 345

转载 Apache Flink 零基础入门（九）：Flink SQL 编程实践

文章目录通过本课你能学到什么？环境准备运行 Flink SQL CLI 客户端数据介绍实例1：过滤实例2：Group Aggregate实例3：Window AggregateWindow Aggregate 与 Group Aggregate 的区别实例4：将 Append 流写入 Kafka实例5：将 Update 流写入 ElasticSearch总结本文内容出自 Apache Flink公开课系列作者：伍翀（云邪）通过本课你能学到什么？本文将通过五个实例来贯穿 Flink SQL 的编程

2020-06-19 10:42:09 592

转载 Apache Flink 零基础入门（八）：Table API 编程

文章目录一、什么是 Table API1. Flink API 总览2.Table API 特性二、Table API编程1. WordCount举例2. 如何获取一个Table3. 如何输出一个Table4. 如何操作一个Table4.1 Table 操作总览4.2 提升易用性相关操作4.3 增强功能相关操作三、Table API 动态本文内容出自 Apache Flink公开课系列作者：程鹤群（军长）本文主要包含三部分：第一部分，主要介绍什么是 Table API，从概念角度进行分析，让大家有

2020-06-18 10:38:06 413

转载 Apache Flink 零基础入门（七）：状态管理及容错机制

文章目录一. 状态管理的基本概念1.什么是状态2. 为什么要管理状态3. 理想的状态管理二. Flink 状态的类型与使用示例1. Managed State & Raw State2. Keyed State & Operator State3. Keyed State 使用示例三. 容错机制与故障恢复1. 状态如何保存及恢复2. 可选的状态存储方式四. 总结1. 为什么要使用状态？2.为什么要管理状态？3.如何选择状态的类型和存储方式？本文内容出自 Apache Flink公开课系列

2020-06-17 10:22:42 307

转载 Apache Flink 零基础入门（六）：Flink Time & Window 解析

文章目录一、Window & Time 介绍二、Window API 使用2.1 WindowAssigner, Evictor 以及 Trigger2.2 Time & Watermark2.3 迟到的数据3 Window 内部实现本文内容出自 Apache Flink公开课系列作者：邱从贤（山智）一、Window & Time 介绍Apache Flink（以下简称 Flink）是一个天然支持无限流数据处理的分布式计算框架，在 Flink 中 Window 可以将

2020-06-16 10:10:42 294

转载 Apache Flink 零基础入门（五）：客户端操作

文章目录1. 环境说明2. 课程概要3. Flink 客户端操作本文内容出自 Apache Flink公开课系列作者：周凯波（宝牛）阿里巴巴技术专家1. 环境说明在前面几期的课程里面讲过了 Flink 开发环境的搭建和应用的部署以及运行，今天的课程主要是讲 Flink 的客户端操作。本次讲解以实际操作为主。这次课程是基于社区的 Flink 1.7.2 版本，操作系统是 Mac 系统，浏览器是 Google Chrome 浏览器。有关开发环境的准备和集群的部署，请参考「开发环境搭建和应用的配置、部

2020-06-12 14:08:21 1288

转载 Apache Flink 零基础入门（四）：DataStream API 编程

文章目录1. 流处理基本概念2. Flink DataStream API 概览3. 其它问题4. 示例5. 总结本文内容出自 Apache Flink公开课系列作者：崔星灿前面已经为大家介绍了 Flink 的基本概念以及安装部署的过程，从而希望能够帮助读者建立起对 Flink 的初步印象。本次课程开始，我们将进入第二部分，即 Flink 实际开发的相关内容。本次课程将首先介绍 Flink 开发中比较核心的 DataStream API 。我们首先将回顾分布式流处理的一些基本概念，这些概念对于理解

2020-06-11 10:52:51 466

转载 Apache Flink 零基础入门（三）：开发环境搭建和应用的配置、部署及运行

文章目录一、Flink 开发环境部署和配置1. 编译 Flink 代码2. 开发环境准备二、运行 Flink 应用1. 基本概念2. 运行环境准备3. 单机 Standalone 的方式运行 Flink4. 多机部署 Flink Standalone 集群5. Standalone 模式的 HighAvailability（HA）部署和配置6. 使用 Yarn 模式跑 Flink job7. Yarn 模式下的 HighAvailability 配置本文内容出自 Apache Flink公开课系列作者

2020-06-10 23:45:29 558

转载 Apache Flink 零基础入门（一&二）：基础概念解析

文章目录一、Apache Flink 的定义、架构及原理1. Flink Application2. Flink Architecture3. Flink Operation4. Flink 的应用场景4.1 Flink 的应用场景：Data Pipeline4.2 Flink 应用场景：Data Analytics4.3 Flink 应用场景：Data Driven二、「有状态的流式处理」概念解析1. 传统批处理2. 理想方法3.流式处理4.分布式流式处理5. 有状态分布式流式处理三、Apache Fli

2020-06-09 16:10:26 415

qq_24095055的博客