自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 Flink问题总结

FLink Job遇到的问题:基于flink的官方镜像启动的job,并采用本地文件的方式做checkPoint,发生了权限问题。官方镜像启动是使用的flink用户,因此权限不足,所以不能创建文件夹和文件。解决方案:采用hdfs方式进行checkpoint采用内存的方式进行checkpoint,并调整jobManager的checkpoint的内存大小在进行checkpoint时,由于需要checkpoint的数据过大,导致了akka.framesize大小不足。调整akka.frames

2021-09-17 20:05:58 475

原创 Flink源码学习之Flink主节点启动

Flink主节点启动ClusterEntryPoint:集群启动入口Flink主从架构:主节点JobManager + 从节点 : TaskManagerJobManager是Flink集群的主节点,主要包括三大组件:1. ResourceManager Flink的集群资源管理器,只有一个,负责Slot的管理和申请等工作,也负责心跳服务 2. Dispatcher 负责接收用户提交的JobGraph,然后启动一个JobMaster,JobMaster类似于Yarn集群中的AppMaster

2021-07-06 22:01:12 1084 1

原创 flink源码学习一

Flink源码学习一Flink RPC​ Flink RPC底层基于Scala的网络编程库Akka实现。Akka具有如下特点:1. 它是对并发模型进行了更高的抽象2. 它是异步、非阻塞、高性能的事件驱动编程模型3. 它是轻量级事件处理(1GB内存可容纳百万级别个Actor)Akka的通信模型如下图:关于AKka的理解可以从ActorSystem和Actor的角度理解,以下几个方面有助于我们理解Akka。1、ActorSystem是管理Actor生命周期的组件,Actor是负责通信的组件

2021-07-06 16:27:27 721

原创 flink自学笔记(二)

深入浅出Flink(二)CheckPointCheckPoint概述​ checkpoint机制是Flink可靠性的基石,可以保证Flink集群在某个算子因为某些原因(如异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态,保证应用流图状态的一致性。Chandy-Lamport算法任务开启JobManager发起Checkpointsource上报Checkpoint数据处理barrier对齐缓存数据处理sink上报checkp

2021-07-05 14:12:53 226

原创 flink自学笔记(1)

深入浅出FlinkFlink之基础知识Flink的特性处理无界和有界数据​ flink既可以处理无界流,也可以处理有界流。无界流:定义了流的开始,没有定义流的结束有界流:既定义了流的开始,也定义了留的结束Flink擅长处理有界和无界数据集。精确地时间控制和状态化使得Flink的运行时能够运行任何处理无界流的应用。有界流则由一些专为固定大小数据集特殊设计的算法和数据结构进行内部处理,产生了出色的性能。部署到任意地方flink是一个分布式系统,需要计算资源来执行应用程序。flink集成了

2021-07-05 12:23:39 144

原创 HDFS源码学习笔记

HDFS架构演进之路HDFS使用来解决海量数据存储问题,MapReduce使用来解决海量数据如何计算的问题HDFS全称:Hadoop Distributed File SystemHDFS核心思想分散存储冗余存储HDFS架构HDFS是一个主从式的架构,主节点只有一个叫做NameNode。从节点有多个叫DataNodeNameNode管理元数据信息:文件与Block块,Block与DataNode主机的关系NameNode为了快速响应用户的操作请求,会把元数据信息加载到内存里Da

2021-07-01 00:54:21 854

原创 CountDownLatch&CyclicBarrier&Semaphore初识

CountDownLatch​ CountDownLatch这个类能够使一个线程等待其他线程完成各自的工作后再执行。应用场景​ 有一个任务想要往下执行,但必须要等到其他的任务执行完毕后才可以继续往下执行。假如我们这个想要继续往下执行的任务调用一个CountDownLatch对象的await()方法,其他的任务执行完自己的任务后调用同一个CountDownLatch对象上的countDown()方法,此时cnt计数器的值就会减1。这个调用await()方法的任务将一直阻塞等待

2021-03-31 14:58:47 248 1

原创 Kafka服务端

Kafka服务端源码之网络网络传输关键类及流程图:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-x3swD7s0-1617173249475)(./服务端设计.png)]上图可以看出有如下几个关键线程和关键类:Acceptor线程:接受并配置新连接的线程。 每个端点中有一个。**Processor线程:**处理来自单个连接的所有请求的线程。 其中有N个并行运行,每个都有自己的选择器**RequestChannel类:**处理请求,并将请求缓存在该类的reque

2021-03-31 14:47:55 1622 1

原创 分布式及zookeeper基本原理

分布式系统​ 分布式系统是为了解决单体集中式系统无法解决的问题才产生的。因此了解分布式系统,要先对集中式系统有所了解。集中式系统的发展,以及发展遇到的什么瓶颈,才能清楚为什么要引入分布式系统。集中式系统​ 集中式系统:由一台或多台主计算机组成中心节点,数据集中存储在中心节点,并且整个系统的所有业务单元都集中部署在该中心节点,系统所有的功能均由其集中处理。即:集中式系统中,客户端仅仅负责数据的录入和输出,而数据的存储和控制完全交由主机完成。​ 优点1、结构简单:单一系统,单一节点2、部署简单:

2021-03-03 18:30:00 215 1

原创 分布式基础知识

分布式系统​ 分布式系统是为了解决单体集中式系统无法解决的问题才产生的。因此了解分布式系统,要先对集中式系统有所了解。集中式系统的发展,以及发展遇到的什么瓶颈,才能清楚为什么要引入分布式系统。集中式系统​ 集中式系统:由一台或多台主计算机组成中心节点,数据集中存储在中心节点,并且整个系统的所有业务单元都集中部署在该中心节点,系统所有的功能均由其集中处理。即:集中式系统中,客户端仅仅负责数据的录入和输出,而数据的存储和控制完全交由主机完成。​ 优点1、结构简单:单一系统,单一节点2、部署简单:

2021-02-26 13:07:24 3723 1

原创 安装Docker

安装Docker一、安装与配置安装依赖包sudo yum install -y yum-utils device-mapper-persistent-data lvm2 设置阿里云镜像sudo yum-config-manager --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo 重建Yum缓存yum clean allyum makecache#升级包yum updat

2021-02-23 09:05:41 160

原创 Kafka的源码解读(一)-- 生产者

Kafka的源码解读(一)-- 生产者​ 该文档及之后的的kafka源码解读均以kafka2.4.0版本进行解读。kafka是用NIO作为通信基础的,这里不做赘述,如有需要连接NIO基础的课参考以下链接:https://editor.csdn.net/md/?articleId=113486103生产者发送数据流程解读​ 生产者发送消息的流程简图如下:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iEmm4Tn2-1612792370084)(/Users/deng

2021-02-08 21:53:15 1532 3

原创 Dbeaver连接Hive

这里只说明Hive是在CDH搭建且在CDH做的kerberos认证参考链接:https://www.cnblogs.com/fivedays/p/12808488.html参考链接:https://www.cnblogs.com/xiaodf/p/5968178.html参考上面两个链接配置完了kerberos和Dbeaver,但是仍旧不能链接这里需要下载CDH的Hive驱动,不然会报个GSS initiate failed下载地址:https://downloads.cloudera.com/c

2021-02-05 15:01:13 887

原创 JavaNIO通信基础

NIO简介​ 核心组件:Channel(通道)Buffer(缓冲区)Selector(选择器)缓冲区(Buffer)​ 通道的读取,就是将数据从通道读取到缓冲区中;通道的写入就是将数据从缓冲区写入到通道中。​ 缓冲区本质上是一个内存块,既可以写入数据,也可以从中读取数据。Buffer类​ Buffer类是一个非线程安全的类。Buffer类是一个抽象类,对应于Java的主要数据类型,在NIO中主要有8中缓冲区类:ByteBuffer、CharBuffer、DoubleBuffer、

2021-01-31 21:59:46 230 2

原创 高并发IO的底层原理

IO读写的基础原理read系统调用,不是直接从物理设备把数据读取到内存中;write系统调用,也不是直接把数据写入到物理设备。两种操作都会涉及到缓冲区。即:调用操作系统的read,是把数据从内核缓冲区复制到进程缓冲区;而write系统调用,是把数据从进程缓冲区复制到内核缓冲区内核缓冲区与进程缓冲区缓冲区:为了减少频繁地与设备之间的物理交换。内存缓冲区:上层应用使用read系统调用时,仅仅把数据从内核缓冲区复制到上层应用的缓冲区(进程缓冲区);在使用write系统调用时,仅仅把数据从进程缓冲区复制

2021-01-29 19:44:39 223

原创 Kafka架构设计

Kafka架构设计Kafak核心概念生产者(Producer) : 生产数据,并存放在指定的主题中主题(topic) :类似于数据库中的表,按主题存储数据分区(partition) :一个主题可以按分区存储数据,默认数据只有一个分区,一般为创建topic时指定分区数。在磁盘上体现为目录不同消费者(consumer) : 消费存储在主题中的数据,数据是通过pull的方式,实现消费者消费数据,即消费者自己从topic中拉取消费者组(consumer group) : 一组消费者,消费同一的主题

2021-01-29 10:36:30 2004 4

原创 大数据软件安装

List itemecho "echo never > /sys/kernel/mm/transparent_hugepage/enabled" >> /etc/rc.localecho "echo never > /sys/kernel/mm/transparent_hugepage/defrag" >> /etc/rc.local截止kafka的学习的软件的集群搭建​ 两个月左右的学习时间,快速学习了很多软件的使用及原理,但是没有真正搭建过完整的集群。.

2020-12-30 17:24:53 217 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除