HBase 内容分享
文章平均质量分 91
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于B
之乎者也·
机车疾驰在路上,代码飞舞在指尖,热血与逻辑交织,创造属于我的数字世界。
展开
-
HBase内容分享(九):知乎 HBase 实践
Kubernetes[3] 是谷歌开源的容器集群管理系统,是 Google 多年大规模容器管理技术 Borg 的开源版本. Kubernetes 提供各种维度组件的资源管理和调度方案,隔离容器的资源使用,各个组件的 HA 工作,同时还有较为完善的网络方案. Kubernetes 被设计作为构建组件和工具的生态系统平台,可以轻松地部署、扩展和管理应用程序. 有着 Kubernetes 大法的加持,我们很快有了最初的落地版本([4]).集群通过一套管理系统 Kubas 服务来进行管理([4]).原创 2024-01-01 10:55:40 · 865 阅读 · 0 评论 -
HBase内容分享(八):货拉拉HBase Bulkload实践
本文从用户痛点与服务稳定性的角度出发,介绍了货拉拉大数据基础架构团队在HBase离线数据链路保障上的思考与实践。希望能为读者提供一些参考,也欢迎与我们沟通交流。原创 2024-01-01 10:35:55 · 950 阅读 · 0 评论 -
HBase内容分享(七):基于HBase的大数据存储在京东的应用场景
在这种情况下,选择了只在ES集群中存储最近三个月的数据,对其提供灵活的查询,而长期的数据存储使用HBase来进行。Region所能存储的数据大小是有上限的,当达到该上限时(Threshold),Region会进行分裂,数据也会分裂到多个Region中,这样便可以提高数据的并行化,以及提高数据的容量。因此,HBase被广泛使用在大数据存储的解决方案中。在HBase每个cell存储单元对同一份数据有多个版本,根据唯一的时间戳来区分每个版本之间的差异,不同版本的数据按照时间倒序排序,最新的数据版本排在最前面。原创 2024-01-01 10:22:07 · 891 阅读 · 0 评论 -
HBase内容分享(六):HBase面试题分享
HBase 是一个面向列的数据库,所以在进行模型设计时,重点在于如何高效地存储和查询数据。HBase 的设计目标是尽可能地利用列存储和查询的优势,提高系统的性能和可扩展性。列族的设计:列族是 HBase 中列的集合,一个表可以包含多个列族。列族在存储和查询时具有独立的特性,因此需要根据数据的访问模式和特点来设计列族。一般来说,划分标准是根据数据访问频度,如一张表里有些列访问相对频繁,而另一些列访问很少,这时可以把这张表划分成两个列族,分开存储,提高访问效率。列的设计。原创 2024-01-01 10:02:43 · 1181 阅读 · 0 评论 -
HBase内容分享(五):HBase读写性能优化
HDFS数据通常存储三份,假如当前RegionA处于Node1上,数据a写入的时候三副本为(Node1,Node2,Node3),数据b写入三副本是(Node1,Node4,Node5),数据c写入三副本(Node1,Node3,Node5),可以看出来所有数据写入本地Node1肯定会写一份,数据都在本地可以读到,因此数据本地率是100%。这里需要澄清一下,如果不对列数据做限制,数据总是一行一行返回的,即使一行数据大小大于设置的返回结果限制大小,也会返回完整的一行数据。原创 2024-01-01 09:42:18 · 2481 阅读 · 0 评论 -
HBase内容分享(四):深度学习HBase
HBase(Hadoop Database的缩写)是一个开源的分布式、可扩展、高性能的NoSQL数据库,它是基于Google的Bigtable论文设计而来,构建在Hadoop生态系统之上。HBase的设计目标是为了处理海量数据,并且在这些数据上实现高效的实时随机访问。相比传统的关系型数据库,HBase提供了更适合大规模数据处理的数据模型和架构。本地模式是最简单的安装方式,适用于在本地单机上进行开发和测试。在本地模式下,HBase将运行在单一的Java进程中,数据存储在本地文件系统。原创 2023-12-31 14:38:22 · 882 阅读 · 0 评论 -
Flink 内容分享(七):Flink 读写 HBase 总结
总结 Flink 读写 HBase本文总结了Flink SQL 读写 HBase 的参数配置,解决了在kerberos环境下因 hudi 包 hbase-site.xml 配置冲突引起的异常,学习总结了 Flink SQL 读写 HBase 时加载 HBase 配置的优先级,但是没有详细的分析源码中的逻辑,可能会在后面的文章中补充相关的源码分析~原创 2023-12-30 13:49:30 · 2528 阅读 · 0 评论 -
HBase内容分享(三):HBase基本原理
为了定位每个Region所在的位置,就可以构建一张映射表,映射表的每个条目包含两项内容,一个是大数据存Region标识符,另一个是Region服务器标识,这个条目就表示储与管理Region和Region服务器之间的对应关系,从而就可以知道某个Region被保存在哪个Region服务器中。客户端在插入,删除,查询数据时需要知道哪个Region服务器上存有自己所需的数据,这个查找Region的过程称之为Region定位。Region服务器由多个Region块构成,Region块中存储的一系列连续的数据集。原创 2023-12-08 09:30:49 · 825 阅读 · 0 评论 -
HBase内容分享(二):HBase数据定义和数据操作
命令描述create创建指定模式的新表alter修改表的结构,如添加新的列族describe展示表结构的信息,包括列族的数量与属性list列出HBase中已有的表删除或更改表时,需禁用表,更改完后需要解禁表禁用所有的表判断一个表是否被禁用drop删除表truncate如果只是想删除数据而不是表结构,用truncate来禁用表、删除表并自动重建表结构。原创 2023-12-08 09:26:07 · 926 阅读 · 0 评论 -
HBase内容分享(一):HBase简介
Google的三驾马车谈到Hadoop的起源,就不得不提Google的三驾马车:Google FS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文,奠定了风靡全球的大数据的基础!—2003 HDFS的理论基础—2004 MapReduce的理论基础—2006 Hbase的理论基础Hadoop与Hbase什么是HBase。原创 2023-12-08 09:21:50 · 934 阅读 · 0 评论