自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

xrh

原创最简单易懂的Kafka知识整理

Kafka概述消息队列两种模式 1.点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）生产者进入队列以后只为一个消费者服务，信息进入队列是先进先出的，消费者每消费一条则在消息队列中删除该条信息（队列中有顺序的） 2.发布/订阅模式（一对多，消费者消费数据之后不会清除消息）生产者把消息发布到消息队列中，消息是被很多的消费者消费的，当c1消费1的时候，在消息队列中不能删除1，不然其他消费者就消费不到1这个数据，作为消费者1要记住自己的消费，好在下次在剩下的进行...

2020-06-28 17:06:33 985

原创 Flink运行架构详细讲解

Flink运行时的组件作业管理器（JobManager）（Master节点）• 控制⼀个应⽤程序执⾏的主进程，也就是说，每个应⽤程序都会被⼀个不同的JobManager 所控制执⾏。• JobManager 会先接收到要执⾏的应⽤程序，这个应⽤程序会包括：作业图（JobGraph）、逻辑数据流图（logical dataflow graph）和打包了所有的类、库和其它资源的JAR包。• JobManager 会把JobGraph转换成⼀个物理层⾯的数据流图，这个图被叫做“执⾏图” （Executi

2020-07-13 14:26:18 312

原创 Flink程序wordcount

package Flink.HelloFlink//导入隐式类型转换import org.apache.flink.streaming.api.scala._import org.apache.flink.streaming.api.windowing.time.Timeobject wordCount { case class WordWithCount(word: String, count: Int) def main(args: Array[String]): Unit = {

2020-07-13 12:24:49 224

原创 Flink基础知识的简单理解

Flink基础知识整理Flink介绍Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams.Apache Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行状态计算。流处理介绍事务处理（OLTP）OLTP：在线事务处理，所有事件都存储到MySQL里。分析处理(Hive) (MyS

2020-07-13 12:04:11 683

原创 HBase知识整理

HBase概论定义HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。就是个noonlysql数据库（非关系型数据库），在大数据中代替mtsql的就是HBaseHBase数据模型逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。但从HBase的底层物理存储结构（K-V）来看，HBase更像是一个multi-dimensional map。存数据的时候用kv值的形式去存的HBase逻辑结构Row_key:相当于mysq...

2020-06-28 17:10:14 280

原创 Flume知识整理

Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。流式框架：基于流式处理（流水线处理，粒度很细），不停的处理缺点：就是比较吃资源。Flume基础架构从webServer采集日志通过Agent（进程）进行一系列的传输传到HDFS上（我们希望放入的地方）Event：传输单元，Flume数据传输的基本单元，以Event的形式将数据从源头送至目的地。Event由Header和Body两部分组

2020-06-28 16:58:12 319

原创 Hive知识整理

什么是HiveHive就是数据统计工具（拿来一组数据算算平均数，算算方差）如何实现数据统计功能呢？可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。结构化数据：有规律的数据，结构化数据中光有数据不能成一个表格，因为缺少了最关键描述数据的元数据（描述数据的数据）Hive的运行思路和理解Hive不存数据，这些数据全部存在hdfs上面，而Hive能把这些数据映射成一张表，其实Hive给这份数据添加了元数据（描述信息），于是结构化数据就能成一张表了如果没有Hive这份表处理走m

2020-06-28 16:51:30 316

原创 Hadoop知识整理

Hadoop：HDFSHDFS（分布式存储）组成：nndn2nn组成NameNode（nn）：只能有一个目录DataNode（dn）：存储多个文件数据的2nn：是nn的助手，但不是nn的热备份nn和2nn的区别：nn里的Edits文件写满时变成可读文件再新建新的Edits文件，而2nn不能新建新的Edits文件NameNode读取数据流程由客户端通过FileSystem向NameNode询问A文件，然后NameNode开始查询元数据找到A文件在B的D...

2020-06-28 16:43:03 410

hadoop3.x笔记.docx

大数据Hadoop的一些配置与底层原理，里面详细介绍了从0到1搭建集群以及搭建过程中遇到的问题解决方案，并且由图去更好的理解Hadoop的用处。

2020-06-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除