如何将mysql表结构建立在hbase中_spark怎么从hbase数据库当中创建rdd

最新推荐文章于 2021-11-30 00:17:57 发布

我们的太空

最新推荐文章于 2021-11-30 00:17:57 发布

阅读量133

点赞数

文章标签：如何将mysql表结构建立在hbase中

本文链接：https://blog.csdn.net/weixin_29164091/article/details/114016202

版权

本文探讨了使用Spark通过Hadoop接口读取HBase全表数据（5亿条）与从Hive读取相同数据的性能差异。Spark读取HBase耗时20MB以上，而Hive只需1MB以内，揭示了两者在大数据处理效率上的显著差距。

摘要由CSDN通过智能技术生成

Configuration conf = HBaseConfiguration.create();

String tableName = "testTable";

Scan scan = new Scan();

scan.setCaching(10000);

scan.setCacheBlocks(false);

conf.set(TableInputFormat.INPUT_TABLE, tableName);

ClientProtos.Scan proto = ProtobufUtil.toScan(scan);

String ScanToString = Base64.encodeBytes(proto.toByteArray());

conf.set(TableInputFormat.SCAN, ScanToString);

JavaPairRDD myRDD = sc

.newAPIHadoopRDD(conf, TableInputFormat.class,

ImmutableBytesWritable.class, Result.class);

在Spark使用如上Hadoop提供的标准接口读取HBase表数据(全表读)，读取5亿左右数据，要20M+，而同样的数据保存在Hive中，读取却只需要1M以内，性能差别非常大。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

我们的太空

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

HBase(10) -- HBase表结构设计(列蔟、版本、rowkey设计)

erainm

09-11

861

1. 名称空间 1.1 说明在一个项目中，需要使用HBase保存多张表，这些表会按照业务域来划分为了方便管理，不同的业务域以名称空间（namespace)来划分，这样管理起来会更加容易类似于Hive中的数据库，不同的数据库下可以放不同类型的表 HBase默认的名称空间是「default」，默认情况下，创建表时表都将创建在 default 名称空间下 HBase中还有一个命名空间「hbase」，用于存放系统的内建表（namespace、meta） 1.2 语法 # 创建命名空间 create_na

如何将mysql表结构建立在hbase中_Hbase入门(四)——表结构设计-RowKey

weixin_36259939的博客

01-28

402

Hbase的表结构设计与关系型数据库有很多不同，主要是Hbase有Rowkey和列族、timestamp这几个全新的概念，如何设计表结构就非常的重要。创建Hbase就是通过表 Rowkey 列族 timestamp确定一行数据。这与关系型数据库完全不同：属性HBaseRDBMS数据类型只有字符串丰富的数据类型数据操作简单的增删改查不支持join各种函数和表连接存储模式基于列式存储基于表格结构...

参与评论您还未登录，请先登录后发表或查看评论

Spark——实验四：从HBASE建立RDD

maochaofei的博客

06-05

1262

文章目录一. 实验目的二. 实验内容三. 实验步骤及结果分析 1. 基于ubuntukylin14.04(16)通过命令行建立hbase程序 1.1 创建hbase表 1.2 配置Spark 1.3 编写程序读取HBase数据 1.4 编写程序向HBase写入数据 2. 基于ubuntukylin14.04(16)通过eclipse平台运行hbase程序 2.1 创建Hbase程序 2.2 在Eclipse运行HBase程序一. 实验目的学习从hbase库建立RDD数据结构的主要技术。二. 实验内

HBase表结构设计（结构、创建、压缩、分区、命名空间等）

data+scenario+science+insight

08-19

2144

HBase表结构设计（结构、创建、分区、命名空间等）任务表述：如果用户点击某一行数据则触发接口写数据进入HBase。那么当用户再次读取数据的时候数据A和数据B返回的数据就需要给返回的数据另外增加一个字段说明，即当前信息是否已阅。需要接口及参数：记录已阅写入HBase表的接口，需要请求参数，userid及id[其中id以逗号分隔可以多个]；其中的功能也包括删除该记录的功能。修改原有数据A和数据B接口，请求参数增加userid字段，返回内容增加是否已阅字段； HBase表结构设计表名.

Hadoop之Hbase建表（详细步骤）

热门推荐

大数据

11-23

2万+

1、启动HDFS和HBase cd /home/ZQ/hadoop-2.7.6/sbin start-dfs.sh cd /home/ZQ/hbase-1.4.13/bin/ start-hbase.sh 2、进入hbase shell cd hbase shell 3、创建表 create 'StudentAndCourse','student','course1','course2','course3' 4、插入数据 ①新增学号为2015001.

Spark从集合、HDFS、HBase、Elasticsearch和MySQL中读取数据,创建RDD

|+街道口地痞-

07-08

866

RDD的创建 RDD(Resilient Distributed Dataset)全称为弹性分布式数据集，是Spark对数据的核心抽象。创建RDD是使用RDD的第一步，一般可以由内存中的集合、文件、外部数据源生成或者由其他RDD转换而成。 1.并行集合并行集合可以对Driver中的集合调用parallelize方法得到，Driver会将集合切成分区，并将数据分区分发到整个集群中。 val sc = new SparkContext(sparkConf) val rdd = sc.parallelize(S

hbase scala 实例_spark dataset读写 hbase 案例代码

weixin_39542608的博客

12-19

267

1.spark 读写hbase代码spark 提供了saveAsNewAPIHadoopDataset方法来写入rdd到hbase，和 newAPIHadoopRDD方法读取hbase数据到rddmaven依赖UTF-82.11.122.3.02.7.72.111.4.9org.apache.sparkspark-core_2.11${spark.version}org.apache.sparks...

spark连接mysql，hbase

JamesBaiLove的博客

04-10

318

spark内存计算框架 RDD的创建方式 1、通过已经存在的scala集合去构建 val rdd1=sc.parallelize(List(1,2,3,4,5)) val rdd2=sc.parallelize(Array("hadoop","hive","spark")) val rdd3=sc.makeRDD(List(1,2,3,4)) 2、加载外部的数据源去构建 val rdd1=sc.textFile("/words.txt") 3、从已...

Learning Spark——Spark连接Mysql、mapPartitions高效连接HBase

Trigl的博客

05-20

5307

执行Spark任务免不了从多个数据源拿数据，除了从HDFS获取数据以外，我们还经常从Mysql和HBase中拿数据，今天讲一下如何使用Spark查询Mysql和HBase1. Spark查询Mysql内容主要参考官方文档：http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databasesSpar

从MySQL中导数据到HBase

说出你的愿望吧

06-22

1605

前言这个问题在网上已经一搜一大把了，为什么要自己亲手总结一下仅仅是因为最近自己公司新上了HBase然后使用Spark去读取MySQL的数据写入HBase的时候遇到了一些问题，也困扰了挺久...

基于Mysql的表转HBase小Demo

07-11

实现一个简单的基于Mysql的表转换成基于HBase的过程，只实现了Dao层的转换，包含实现文件和单元测试文件，简单、易上手，值得初学者使用

mysql结构改写为hbase表_sqlite数据库修改表结构

weixin_42509398的博客

02-28

225

SQLite 入门教程(二)创建、修改、删除表一、数据库定义语言 DDL在关系型数据库中，数据库中的表 Table、视图 View、索引 Index、关系 Relationship 和触发器 Trigger 等等，构成了数据库的架构 Schema。在 SQL 语句中，专门有一些语句用来定义...文章长征2号2017-09-13602浏览量SQLite介绍SQLite介绍S...

mysql结构改写为hbase表_Hbase之修改表结构

weixin_39556064的博客

02-28

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hbase.HTableDescriptor;import or...

怎样把mysql表转换为hbase表_数据从mysql迁移到hbase的一些思考及设计

weixin_39885683的博客

01-19

551

一、进行迁移的原因由于业务的发展，使用mysql进行建立索引进行搜索已经造成数据流的瓶颈卡在了数据库io，例如每次dump全表的时候，会造成压力过大，造成耗时很长，并且当前的数据量基本上已经达到了亿级别的数据量，如果希望mysql能更好的提供服务，下一步必须考虑分库分表才可以；基于这种情况下，考虑使用hbase用来进行数据的存储，因为hbase所能承受的数据量远大于mysql，并且对列的扩展也很方...

从mysql中将数据表复制给hbase

渣渣

07-24

383

与将mysql的数据表复制给hive/hdfs类似，我们只需要增加以下个别参数用于支持对hbase中的列族的支持即可。可以用如下语句实现： sqoop import --connect jdbc:mysql://localhost:3306/sqooptest --username hive --password hive --table sqoop --hbase-table studen

mysql结构改写为hbase表_HBase表描述和修改

weixin_42336364的博客

02-28

172

描述该命令返回表的说明。它的语法如下：hbase>describe'table name'下面给出的是对emp表的 describe命令的输出。hbase(main):006:0>describe'emp'DESCRIPTIONENABLED'emp',{NAME=>'READONLY',DATA_BLOCK_ENCODING=>'NONE',BLOOMFILTER=&gt...

怎样把mysql表转换为hbase表_导出table数据库表

weixin_39846898的博客

02-12

223

从Mysql数据库中导入导出表结构1、从Mysql数据库中导入sql表很简单，只需要一个命令即可搞定：[root@localhost ~]# mysql -uroot -piweb_xxx_mysql iweb < modify_db_sql似乎也可以使用source的方法，具体没有在linux下试过：[ro...文章程序猿肖邦2015-11-11724浏览量在SQL Server数据库之间...

HBase的编程实践（实验3_熟悉常用的HBase操作）

伟庭的博客

11-30

1万+

HBase的编程实践（实验3_熟悉常用的HBase操作）

spark读写hbase

克终的博客

07-30

568

spark读写hbase

spark 读取hbase数据清洗后放入mysql