笔记
xruihao
这个作者很懒,什么都没留下…
展开
-
Flink运行架构详细讲解
Flink运行时的组件 作业管理器(JobManager)(Master节点) • 控制⼀个应⽤程序执⾏的主进程,也就是说,每个应⽤程序都会被⼀个不同的JobManager 所控制执⾏。 • JobManager 会先接收到要执⾏的应⽤程序,这个应⽤程序会包括:作业图(JobGraph)、逻辑数据流图(logical dataflow graph)和打包了所有的类、库和其它资源的JAR包。 • JobManager 会把JobGraph转换成⼀个物理层⾯的数据流图,这个图被叫做“执⾏图” (Executi原创 2020-07-13 14:26:18 · 302 阅读 · 0 评论 -
Flink基础知识的简单理解
Flink基础知识整理 Flink介绍 Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。 流处理介绍 事务处理(OLTP) OLTP:在线事务处理,所有事件都存储到MySQL里。 分析处理(Hive) (MyS原创 2020-07-13 12:04:11 · 675 阅读 · 0 评论 -
HBase知识整理
HBase概论 定义 HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。 就是个noonlysql数据库(非关系型数据库),在大数据中代替mtsql的就是HBase HBase数据模型 逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构(K-V)来看,HBase更像是一个multi-dimensional map。 存数据的时候用kv值的形式去存的 HBase逻辑结构 Row_key:相当于mysq...原创 2020-06-28 17:10:14 · 264 阅读 · 0 评论 -
最简单易懂的Kafka知识整理
Kafka概述 消息队列 两种模式 1.点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除) 生产者进入队列以后只为一个消费者服务,信息进入队列是先进先出的,消费者每消费一条则在消息队列中删除该条信息(队列中有顺序的) 2.发布/订阅模式(一对多,消费者消费数据之后不会清除消息) 生产者把消息发布到消息队列中,消息是被很多的消费者消费的,当c1消费1的时候,在消息队列中不能删除1,不然其他消费者就消费不到1这个数据,作为消费者1要记住自己的消费,好在下次在剩下的进行...原创 2020-06-28 17:06:33 · 982 阅读 · 0 评论 -
Flume知识整理
Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 流式框架:基于流式处理(流水线处理,粒度很细),不停的处理 缺点:就是比较吃资源。 Flume基础架构 从webServer采集日志通过Agent(进程)进行一系列的传输传到HDFS上(我们希望放入的地方) Event: 传输单元,Flume数据传输的基本单元,以Event的形式将数据从源头送至目的地。Event由Header和Body两部分组原创 2020-06-28 16:58:12 · 314 阅读 · 0 评论 -
Hive知识整理
什么是Hive Hive就是数据统计工具(拿来一组数据算算平均数,算算方差) 如何实现数据统计功能呢? 可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 结构化数据:有规律的数据,结构化数据中光有数据不能成一个表格,因为缺少了最关键描述数据的元数据(描述数据的数据) Hive的运行思路和理解 Hive不存数据,这些数据全部存在hdfs上面,而Hive能把这些数据映射成一张表,其实Hive给这份数据添加了元数据(描述信息),于是结构化数据就能成一张表了 如果没有Hive这份表处理走m原创 2020-06-28 16:51:30 · 311 阅读 · 0 评论 -
Hadoop知识整理
Hadoop: HDFS HDFS(分布式存储)组成: nndn2nn组成 NameNode(nn):只能有一个目录 DataNode(dn):存储多个文件数据的 2nn:是nn的助手,但不是nn的热备份 nn和2nn的区别:nn里的Edits文件写满时变成可读文件再新建新的Edits文件,而2nn不能新建新的Edits文件 NameNode读取数据流程 由客户端通过FileSystem向NameNode询问A文件,然后NameNode开始查询元数据找到A文件在B的D...原创 2020-06-28 16:43:03 · 401 阅读 · 0 评论