guoqing2017-CSDN博客

原创 Flink问题总结

FLink Job遇到的问题：基于flink的官方镜像启动的job，并采用本地文件的方式做checkPoint，发生了权限问题。官方镜像启动是使用的flink用户，因此权限不足，所以不能创建文件夹和文件。解决方案：采用hdfs方式进行checkpoint采用内存的方式进行checkpoint，并调整jobManager的checkpoint的内存大小在进行checkpoint时，由于需要checkpoint的数据过大，导致了akka.framesize大小不足。调整akka.frames

2021-09-17 20:05:58 575

原创 Flink源码学习之Flink主节点启动

Flink主节点启动ClusterEntryPoint：集群启动入口Flink主从架构：主节点JobManager + 从节点： TaskManagerJobManager是Flink集群的主节点，主要包括三大组件：1. ResourceManager Flink的集群资源管理器，只有一个，负责Slot的管理和申请等工作，也负责心跳服务 2. Dispatcher 负责接收用户提交的JobGraph，然后启动一个JobMaster，JobMaster类似于Yarn集群中的AppMaster

2021-07-06 22:01:12 1245 1

原创 flink源码学习一

Flink源码学习一Flink RPC Flink RPC底层基于Scala的网络编程库Akka实现。Akka具有如下特点：1. 它是对并发模型进行了更高的抽象2. 它是异步、非阻塞、高性能的事件驱动编程模型3. 它是轻量级事件处理（1GB内存可容纳百万级别个Actor)Akka的通信模型如下图：关于AKka的理解可以从ActorSystem和Actor的角度理解，以下几个方面有助于我们理解Akka。1、ActorSystem是管理Actor生命周期的组件，Actor是负责通信的组件

2021-07-06 16:27:27 832

原创 flink自学笔记（二）

深入浅出Flink（二）CheckPointCheckPoint概述 checkpoint机制是Flink可靠性的基石，可以保证Flink集群在某个算子因为某些原因（如异常退出）出现故障时，能够将整个应用流图的状态恢复到故障之前的某一状态，保证应用流图状态的一致性。Chandy-Lamport算法任务开启JobManager发起Checkpointsource上报Checkpoint数据处理barrier对齐缓存数据处理sink上报checkp

2021-07-05 14:12:53 282

原创 flink自学笔记（1）

深入浅出FlinkFlink之基础知识Flink的特性处理无界和有界数据 flink既可以处理无界流，也可以处理有界流。无界流：定义了流的开始，没有定义流的结束有界流：既定义了流的开始，也定义了留的结束Flink擅长处理有界和无界数据集。精确地时间控制和状态化使得Flink的运行时能够运行任何处理无界流的应用。有界流则由一些专为固定大小数据集特殊设计的算法和数据结构进行内部处理，产生了出色的性能。部署到任意地方flink是一个分布式系统，需要计算资源来执行应用程序。flink集成了

2021-07-05 12:23:39 198

原创 HDFS源码学习笔记

HDFS架构演进之路HDFS使用来解决海量数据存储问题，MapReduce使用来解决海量数据如何计算的问题HDFS全称：Hadoop Distributed File SystemHDFS核心思想分散存储冗余存储HDFS架构HDFS是一个主从式的架构，主节点只有一个叫做NameNode。从节点有多个叫DataNodeNameNode管理元数据信息：文件与Block块，Block与DataNode主机的关系NameNode为了快速响应用户的操作请求，会把元数据信息加载到内存里Da

2021-07-01 00:54:21 932

原创 CountDownLatch&CyclicBarrier&Semaphore初识

CountDownLatch CountDownLatch这个类能够使一个线程等待其他线程完成各自的工作后再执行。应用场景有一个任务想要往下执行，但必须要等到其他的任务执行完毕后才可以继续往下执行。假如我们这个想要继续往下执行的任务调用一个CountDownLatch对象的await()方法，其他的任务执行完自己的任务后调用同一个CountDownLatch对象上的countDown()方法，此时cnt计数器的值就会减1。这个调用await()方法的任务将一直阻塞等待

2021-03-31 14:58:47 330 1

原创 Kafka服务端

Kafka服务端源码之网络网络传输关键类及流程图：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-x3swD7s0-1617173249475)(./服务端设计.png)]上图可以看出有如下几个关键线程和关键类:Acceptor线程：接受并配置新连接的线程。每个端点中有一个。**Processor线程：**处理来自单个连接的所有请求的线程。其中有N个并行运行，每个都有自己的选择器**RequestChannel类：**处理请求，并将请求缓存在该类的reque

2021-03-31 14:47:55 1719 1

原创分布式及zookeeper基本原理

分布式系统分布式系统是为了解决单体集中式系统无法解决的问题才产生的。因此了解分布式系统，要先对集中式系统有所了解。集中式系统的发展，以及发展遇到的什么瓶颈，才能清楚为什么要引入分布式系统。集中式系统集中式系统：由一台或多台主计算机组成中心节点，数据集中存储在中心节点，并且整个系统的所有业务单元都集中部署在该中心节点，系统所有的功能均由其集中处理。即：集中式系统中，客户端仅仅负责数据的录入和输出，而数据的存储和控制完全交由主机完成。优点1、结构简单：单一系统，单一节点2、部署简单:

2021-03-03 18:30:00 279 1

原创分布式基础知识

分布式系统分布式系统是为了解决单体集中式系统无法解决的问题才产生的。因此了解分布式系统，要先对集中式系统有所了解。集中式系统的发展，以及发展遇到的什么瓶颈，才能清楚为什么要引入分布式系统。集中式系统集中式系统：由一台或多台主计算机组成中心节点，数据集中存储在中心节点，并且整个系统的所有业务单元都集中部署在该中心节点，系统所有的功能均由其集中处理。即：集中式系统中，客户端仅仅负责数据的录入和输出，而数据的存储和控制完全交由主机完成。优点1、结构简单：单一系统，单一节点2、部署简单:

2021-02-26 13:07:24 3871 1

原创安装Docker

安装Docker一、安装与配置安装依赖包sudo yum install -y yum-utils device-mapper-persistent-data lvm2 设置阿里云镜像sudo yum-config-manager --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo 重建Yum缓存yum clean allyum makecache#升级包yum updat

2021-02-23 09:05:41 273

原创 Kafka的源码解读（一）-- 生产者

Kafka的源码解读（一）-- 生产者该文档及之后的的kafka源码解读均以kafka2.4.0版本进行解读。kafka是用NIO作为通信基础的，这里不做赘述，如有需要连接NIO基础的课参考以下链接：https://editor.csdn.net/md/?articleId=113486103生产者发送数据流程解读生产者发送消息的流程简图如下：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iEmm4Tn2-1612792370084)(/Users/deng

2021-02-08 21:53:15 1615 3

原创 Dbeaver连接Hive

这里只说明Hive是在CDH搭建且在CDH做的kerberos认证参考链接：https://www.cnblogs.com/fivedays/p/12808488.html参考链接：https://www.cnblogs.com/xiaodf/p/5968178.html参考上面两个链接配置完了kerberos和Dbeaver，但是仍旧不能链接这里需要下载CDH的Hive驱动，不然会报个GSS initiate failed下载地址：https://downloads.cloudera.com/c

2021-02-05 15:01:13 1188