![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 87
lovelife110
主要方向:AIOPS、web渗透、中间件开发。如果我写的文章对你有帮助,帮忙点赞收藏下文章,顺便在我的博客首页加下我的微信群,我们一起学习进步
展开
-
Thrift快速入门和简单示例
Thrift是一个轻量级、跨语言的RPC框架,主要用于各个服务之间的RPC通信,它通过自身的IDL中间语言, 并借助代码生成引擎生成各种主流语言的RPC服务端/客户端模板代码。Thrift支持多种不同的编程语言,包括C++, Java, Python, PHP等。Thrift官网地址,以下内容基于Apache Thrift v0.15.0。Thrift技术栈分层从下向上分别为:传输层(Transport Layer)、协议层(Protocol Layer)、处理层(Processor Layer)和服务层原创 2022-06-23 15:46:54 · 1080 阅读 · 0 评论 -
Hive架构和原理(图形化通俗易懂)
Hive会提前将SQL语言中常用的操作(select,where,group等)用MapReduce写成很多模板。将模板封装在Hive中。简单说就是Hive把client输入的SQL转换为Mapreduce,运行在 Yarn 上。原创 2022-06-15 17:31:17 · 1040 阅读 · 0 评论 -
hadoop3 Yarn容量(Capacity Scheduler)调度器和公平(Fair Scheduler)调度器配置
例子1default 队列占总内存的 40%,最大资源容量占总资源 60%(容量调度器允许借用其他队列剩余的资源,这里限制不超过60%), hive 队列占总内存的 60%, 最大资源容量占总资源 80%。例子2vcore和内存固定值配置,参考官网yarn.scheduler.capacity..maximum-allocation-mb:每个队列在资源管理器上分配给每个容器请求的最大内存限制。此设置覆盖集群配置 yarn.scheduler.maximum-allocat...原创 2022-06-13 16:23:29 · 1705 阅读 · 1 评论 -
HBase原理 | HBase Split与Compaction
StoreFile Compaction由于 memstore每次刷写都会生成一个新的 HFile,且同一个字段的不同版本(timestamp)和不同类型(Put/Delete)有可能会分布在不同的 HFile 中,因此查询时需要遍历所有的 HFile。为了减少 HFile 的个数,以及清理掉过期和删除的数据,会进行 StoreFile Compaction。Compaction 分为两种,分别是 Minor Compaction 和 Major Compaction。...原创 2022-06-07 11:32:42 · 284 阅读 · 1 评论 -
HBase原理 | HBase读写流程和MemStore Flush(图形化通俗易懂)
HBase:以下内容为V1.3版本Zookeeper:HBase 通过 Zookeeper 来做 Master 的高可用、 RegionServer 的监控、存储Hbase元数据(如哪个表存储在哪个RegionServer上)以及集群配置的维护等工作。meta表:HBase有两个自带的命名空间,分别是 hbase 和 default, hbase 中存放的是 HBase 内置的表,default 表是用户默认使用的命名空间。meta表位于hbase命名空间(还有namespace表)下。记录了用户所有表拆分原创 2022-06-06 17:08:06 · 359 阅读 · 0 评论 -
HBase架构和原理(图形化通俗易懂)
文章目录组件模块说明HBase 架构简单理解Region ServerMasterZookeeperHDFS组件模块说明HBase 架构简单理解Region ServerRegion Server 为 Region 的管理者, 其实现类为 HRegionServer,主要作用如下:对于数据的操作: get, put, delete对于 Region 的操作: splitRegion(Region拆分)、 compactRegion(Region合并)。MasterMaster 是所有 R原创 2022-06-01 16:30:01 · 568 阅读 · 0 评论 -
HBase逻辑结构和物理结构(图形化通俗易懂)
文章目录组件模块说明HBase 逻辑结构HBase 物理存储结构数据模型组件模块说明HBase:HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。利用Hadoop HDFS作为其文件存储系统,提供高可靠性 、高性能、列存储、可伸缩、实时读写的数据库系统。HBase 逻辑结构逻辑上, HBase 的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。横轴按Row key水平切分,纵轴按列族垂直切分。Row key:行键,唯一键。在每个store内是有序的,按字典序排原创 2022-05-30 09:54:41 · 1445 阅读 · 0 评论 -
Yarn工作原理和作业提交过程(图形化通俗易懂)
文章目录组件模块说明架构工作原理组件模块说明Yarn:为一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。ResourceManager:整个集群所有资源的管理者。作用:处理客户端请求、监控NodeManager、启动或监控ApplicationMaster、资源的分配与调度。NodeManager:单个节点服务器资源管理者。作用:管理单个节点上的资源、处理来自ResourceManager的命原创 2022-05-09 17:30:00 · 1534 阅读 · 0 评论 -
MapReduce核心编程思想和原理(图形化通俗易懂)
MapReduce核心编程思想和原理组件模块说明MapReduce核心编程思想MapReduce 框架原理MapReduce 工作流程组件模块说明MapReduce :MapReduce 是一个分布式运算程序的编程框架,核心功能是将用户编写的业务逻辑代码和MapReduce自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上。MapReduce 进程:一个完整的 MapReduce 程序在分布式运行时有三类实例进程,分别为MrAppMaster,MapTask,Reduce原创 2022-05-09 14:37:08 · 1080 阅读 · 0 评论 -
HDFS原理 | NameNode和DataNode工作原理(图形化通俗易懂)
NameNode和DataNode工作原理组件模块说明NameNode工作原理组件模块说明NameNode:存储文件的元数据。作用:管理HDFS的名称空间;配置副本策略;管理数据块(Block)映射信息;处理客户端读写请求。NameNode两个重要文件(内存中的镜像=fsimage+edits)。fsimage:元数据镜像文件。NameNode的元数据存放在内存中,为了断电不丢数据,因此需要在磁盘中备份元数据。edits:元数据操作日志(针对目录树的修改操作),被写入共享存储系统中, 如NFS、 J原创 2022-05-01 23:00:44 · 1212 阅读 · 0 评论 -
HDFS原理 | HDFS读写数据流程(图形化通俗易懂)
HDFS的写数据流程和HDFS的读数据流程详细说明原创 2022-04-27 15:48:49 · 1722 阅读 · 0 评论