大数据平台及编程实践--HBase

最新推荐文章于 2023-05-10 21:57:38 发布

Nancy-sn

最新推荐文章于 2023-05-10 21:57:38 发布

阅读量498

点赞数

分类专栏：大数据平台及编程实践文章标签： hbase big data hadoop

本文链接：https://blog.csdn.net/mariodf/article/details/125347917

版权

大数据平台及编程实践专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文详细记录了在HBase中进行分布式数据库实践，包括安装配置、基本操作如创建表、数据操作、与Spark集成的WordCount示例。通过实验总结了HBase的工作原理和关键概念，如时间戳、数据模型等。

摘要由CSDN通过智能技术生成

课程名称	大数据平台及编程实践
实验名称	HBase

实验目的

学习并掌握HBase的安装与配置
熟悉并掌握常用的HBase Shell命令
理解并掌握HBase分布式数据库的相关概念；
了解HBase的数据模型及系统框架；
了解HBase的实现原理和运行机制。

实验环境

Window10、Hadoop虚拟机、Eclipse

实验内容

实验基本内容：

了解spark的几种启动方式；
熟悉创建RDD的几种方式，并能够掌握RDD的相关操作；
熟悉创建PairRDD的几种方式，并能够掌握PairRDD常用的转换操作；
掌握WordCount程序运行原理，并能够理解Spark、HDFS组合使用。

实验内容

实验基本内容：

了解spark的几种启动方式；
熟悉创建RDD的几种方式，并能够掌握RDD的相关操作；
熟悉创建PairRDD的几种方式，并能够掌握PairRDD常用的转换操作；
掌握WordCount程序运行原理，并能够理解Spark、HDFS组合使用。

1.HBase的安装和配置：

根据老师发的操作步骤，完成了HBase的伪分布式集群的搭建。

2.启动HBase

网页：localhost：16010

3.创建一个person表

4.列出HBase中所有的表

5.显示person表的结构

6.为person表中添加数据

7.扫描person表

8.通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值

第二行因为没有存数据，所以不存在

9.使person表无效

10.使person表生效

11.查看person表中的行数

12.删除表person1

5. 在eclipse中运行spark

下载老师发的：java单机访问HBase的代码，通过代码进行表的创建，数据的添加，数据的删除，数据的更改，删除表等一系列操作。

代码如下：

运行结果：

运行前的表：

运行后的数据：

实验结果

根据输入的命令和输出结果来看，实验结果与预期结果一致。

实验总结

在这次实验中，我学习到了HBase数据库的知识，了解到HBase数据库可以支持大规模海量数据，分布式并发数据处理效率很高。HBase的系统架构包括客户端、Zookeeper服务器、Master主服务器、Region服务器。客户端包含访问HBase的接口；Zookeeper服务器负责提供稳定可靠的协同服务；Master主服务器负责表和Region的管理工作；Region服务器负责维护分配给自己的Region，并响应用户的读写请求。且HBase采用分区存储，一个大的表会被分拆许多个Region，这些Region会被分发到不同的服务器上实现分布式存储。

在实验过程中，通过实验明白了，在使用put命令时，一次只能为一个表的一行数据的一个列添加一个数据，不能一次添加多个数据；在添加数据时，HBase会自动为添加的数据添加一个时间戳；当我要删除表时，要先使表失效，才可以使用drop命令删除表，刚开始一直删不成功，报错：ERROR: Table t1 does not exist.后来先把表失效，才成功删除表。这次实验，收获很多。