HBase
文章平均质量分 81
在人间负债^
商务合作/毕设指导加微:vx18706579002。阿里、腾讯云等多个社区专家博主、创作之星。 会点前后端开发、大数据开发、数据分析、测试、爬虫,喜欢分享,热爱写文章,享受解决BUG的快感。
展开
-
HBase 复习 ---- chapter07
小型生产集群(10-20 台服务器)(cpu拥有 6–8 核,32–64 GB RAM 和 8 T SATA 磁盘 双电源 RAID:提高磁盘利用率+容错能力 ) 少于 10 个从节点很难进行操作。中型生产集群(最多约 50 台服务器 20-50)(cpu拥有 8–10 核,32–64 GB RAM 和 8 T SATA 磁盘 双电源 RAID:提高磁盘利用率+容错能力 )中型集群的所有情况都适用,只是您可能需要五个可以与 HBase Master 搭配使用的ZooKeeper 实例。原创 2023-02-12 09:06:00 · 552 阅读 · 0 评论 -
HBase 复习 ---- chapter06
需求:读取 HBase 中的 t_log 表中 f:userid 的值。然后将 f:userid 的值。value:是当前行的内容(Text)。我们现在使用 HBase 作为数据源,我们自定义的 Mapper 必须继承 TableMapper 类。我们以前使用 HDFS 作为数据源,我们自定义的 Mapper 必须继承 Mapper 类。2:我们的分片如何分呢?2:我们的分片如何分呢?分片的大小 == block的大小 = 128。方式一:在扫描对象上设置的缓存设置。这里面有个重要的地方!原创 2023-02-11 10:43:25 · 399 阅读 · 0 评论 -
HBase 复习 ---- chapter05
二:保持不超过 10MB 的单元格,如果使用 mob 数据类型,则为 50MB,否则,考虑在 HDFS 中存储单元数据,并在 HBase 中存储指针指向该数据。HBase 中的加盐是指将一个随机数放在行键的开头,此操作随机为每个行键指定一个前缀,以使其排序与通常不同。约束的建议用途是为表中的属性强制执行业务规则(例如,确保值在 1-10 范围内)。分区热点:当大量流量集中在集群中的一个或一小部分节点上时,就会发生分区热点。计数器上的同步是在 RegionServer 上完成的,而不是在客户端上。原创 2023-02-10 10:07:50 · 313 阅读 · 0 评论 -
HBase 复习 ---- chapter04
列族的名字尽可能的短,最好是一个字节。最大版本数(VERSIONS):0.96之前,表的最大版本数默认是3,)。96之后,默认是1。是一个字节数组,最大 64KB。布隆过滤器 :能确保一个事件一定不存在,但不能确保事件存在。区域一开始只有一个,当数据达到分区的阈值,区域自动切分。(二)表的名称不能以开头_符号开头,并且只能是字母、数字和下划线命名。(一) 创建表时,只需创建表名,列族名。Magic:写的 keyValue 的所以 + 安全校验。HFile 是一种格式,那么这个格式是什么样子的呢?原创 2023-02-09 18:24:49 · 394 阅读 · 0 评论 -
HBase 复习 ---- chapter03
二:更新表 == alter == admin.disableTable(tableName);三:删除表 == drop == admin.disableTable(tableName);一:创建表 == create == admin.createTable(TableDescriptor tableDescriptor);---------------名称空间的操作-------------------------二:删除数据 == deleteall + delete。原创 2023-02-08 09:39:23 · 333 阅读 · 0 评论 -
HBase 复习 ---- chapter02
HBase 物理数据结构。HBase 逻辑数据结构。HFile 生成过程。HBase 工作原理。原创 2023-02-07 15:55:14 · 129 阅读 · 0 评论 -
HBase 复习 ---- chapter01
我们的 HBase 安装需要:JAVA – Hadoop – ZooKeeper – HBase。HBase 的使用场景:海量数据的存储和海量数据的实时分析。关系型数据库管理系统是一种具有基于行的表结构的数据库管理系统。数据的类型:结构化数据 + 半结构化数据 + 非结构化数据。1、HBase 是一个面向列的 NoSQL 数据管理系统。海量数据的存储 + 海量数据的分析。海量数据的分析:MapReduce。3、它也可以存储任意类型的数据。1、它可以存储任意类型的数据。3、适合离线数据批处理的读取。原创 2023-02-06 10:57:50 · 731 阅读 · 0 评论 -
HBase 2.x ---- 整合 Phoenix
Phoenix 是 HBase 的开源 SQL 皮肤。可以使用标准 JDBC API 代替 Base 客户端 API 来创建表,插入数据和查询 HBase 数据。原创 2022-11-07 08:55:20 · 261 阅读 · 0 评论 -
HBase 2.x ---- HBase 优化
一条数据的唯一标识就是 rowkey,那么这条数据存储与哪个分区,取决于 rowkey 处于哪个一个预分区的区间内,设计 rowkey 的主要目的,就是让数据均匀的分布与所有的 region 中,在一定程度上防止数据倾斜。所有必须添加在 rowKey 的最前面,前缀为最简单的数字。理由是 HBase 大量使用内存用于存储数据,容易遭遇数据洪峰造成 OOM,同时写缓存的数据是不能垃圾回收的,主要回收的就是读缓存,而读缓存垃圾回收不影响性能,所以最终设置的效果可以总结为:防患于未然,早洗早轻松。原创 2022-11-06 11:39:11 · 257 阅读 · 0 评论 -
HBase 2.x ---- HBase进阶
Meta表格介绍(警告:不要去改这个表)全程 hbase: meta,只是在 list 命令中被过滤掉了,本质上和 HBase 的其他表格一样。RowKey:([table],[region start key],[region id]) 即 表名,region 起始位置和 regionID。列:info:regioninfo 为 region 信息,存储一个 HRegionInfo 对象。info:server 当前 region 所处的 RegionServer 信息,包含端口号。info:原创 2022-11-05 10:52:16 · 224 阅读 · 0 评论 -
HBase 2.x ---- HBase API
根据官方 API 介绍,HBase 的客户端连接由 ConnectionFactory 类来创建(工厂模式),用户使用完成之后需要手动关闭连接。同时连接是一个重量级的,推荐使用一个进程使用一个连接,对 HBase 的命令通过连接中的两个属性 Admin 和 Table 来实现。HBase 创建连接是一个重量级的连接,连接的时候时间花费较多,大约需要等待1min左右,出现下面的示图就代表连接成功了。使用类单例模式,确保使用一个连接,可以同时用于多个线程。这里的表格后续还会用到,这里就先不删除了…原创 2022-11-04 11:48:40 · 849 阅读 · 0 评论 -
HBase 2.x ---- HBase快速入门
deleteall 表示删除所有版本的数据,即为当前行当前列的多个 cell。(执行命令会标记数据为要删除,不会直接将数据彻底删除,删除数据只在特定时期清理磁盘时进行)scan 是扫描数据,能读取多行数据,不建议扫描过多的数据,推荐使用 startRow 和 stopRow 来控制读取的数据,默认范围左闭右开。也可以修改读取 cell 的版本数,默认读取一个,最多能读取当前列族设置的维护版本数。如果重复写入相同 rowKey,相同列的数据,会写入多个版本进行覆盖。(2)删除信息使用特殊的语法。原创 2022-11-03 11:11:46 · 387 阅读 · 1 评论 -
HBase 2.x ---- HBase简介
Apache HBase 是以 hdfs 为数据存储的,一种分布式、可扩展的 NoSQL 数据库。(非关系型数据库)原创 2022-11-02 11:04:30 · 280 阅读 · 0 评论