自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

xrh

  • 博客(8)
  • 资源 (1)
  • 收藏
  • 关注

原创 最简单易懂的Kafka知识整理

Kafka概述 消息队列 两种模式 1.点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除) 生产者进入队列以后只为一个消费者服务,信息进入队列是先进先出的,消费者每消费一条则在消息队列中删除该条信息(队列中有顺序的) 2.发布/订阅模式(一对多,消费者消费数据之后不会清除消息) 生产者把消息发布到消息队列中,消息是被很多的消费者消费的,当c1消费1的时候,在消息队列中不能删除1,不然其他消费者就消费不到1这个数据,作为消费者1要记住自己的消费,好在下次在剩下的进行...

2020-06-28 17:06:33 985

原创 Flink运行架构详细讲解

Flink运行时的组件 作业管理器(JobManager)(Master节点) • 控制⼀个应⽤程序执⾏的主进程,也就是说,每个应⽤程序都会被⼀个不同的JobManager 所控制执⾏。 • JobManager 会先接收到要执⾏的应⽤程序,这个应⽤程序会包括:作业图(JobGraph)、逻辑数据流图(logical dataflow graph)和打包了所有的类、库和其它资源的JAR包。 • JobManager 会把JobGraph转换成⼀个物理层⾯的数据流图,这个图被叫做“执⾏图” (Executi

2020-07-13 14:26:18 312

原创 Flink程序wordcount

package Flink.HelloFlink //导入隐式类型转换 import org.apache.flink.streaming.api.scala._ import org.apache.flink.streaming.api.windowing.time.Time object wordCount { case class WordWithCount(word: String, count: Int) def main(args: Array[String]): Unit = {

2020-07-13 12:24:49 223

原创 Flink基础知识的简单理解

Flink基础知识整理 Flink介绍 Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。 流处理介绍 事务处理(OLTP) OLTP:在线事务处理,所有事件都存储到MySQL里。 分析处理(Hive) (MyS

2020-07-13 12:04:11 683

原创 HBase知识整理

HBase概论 定义 HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。 就是个noonlysql数据库(非关系型数据库),在大数据中代替mtsql的就是HBase HBase数据模型 逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构(K-V)来看,HBase更像是一个multi-dimensional map。 存数据的时候用kv值的形式去存的 HBase逻辑结构 Row_key:相当于mysq...

2020-06-28 17:10:14 279

原创 Flume知识整理

Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 流式框架:基于流式处理(流水线处理,粒度很细),不停的处理 缺点:就是比较吃资源。 Flume基础架构 从webServer采集日志通过Agent(进程)进行一系列的传输传到HDFS上(我们希望放入的地方) Event: 传输单元,Flume数据传输的基本单元,以Event的形式将数据从源头送至目的地。Event由Header和Body两部分组

2020-06-28 16:58:12 319

原创 Hive知识整理

什么是Hive Hive就是数据统计工具(拿来一组数据算算平均数,算算方差) 如何实现数据统计功能呢? 可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 结构化数据:有规律的数据,结构化数据中光有数据不能成一个表格,因为缺少了最关键描述数据的元数据(描述数据的数据) Hive的运行思路和理解 Hive不存数据,这些数据全部存在hdfs上面,而Hive能把这些数据映射成一张表,其实Hive给这份数据添加了元数据(描述信息),于是结构化数据就能成一张表了 如果没有Hive这份表处理走m

2020-06-28 16:51:30 315

原创 Hadoop知识整理

Hadoop: HDFS HDFS(分布式存储)组成: nndn2nn组成 NameNode(nn):只能有一个目录 DataNode(dn):存储多个文件数据的 2nn:是nn的助手,但不是nn的热备份 nn和2nn的区别:nn里的Edits文件写满时变成可读文件再新建新的Edits文件,而2nn不能新建新的Edits文件 NameNode读取数据流程 由客户端通过FileSystem向NameNode询问A文件,然后NameNode开始查询元数据找到A文件在B的D...

2020-06-28 16:43:03 410

hadoop3.x笔记.docx

大数据Hadoop的一些配置与底层原理,里面详细介绍了从0到1搭建集群以及搭建过程中遇到的问题解决方案,并且由图去更好的理解Hadoop的用处。

2020-06-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除