MySQL向Hive/HBase的迁移工具

转载 2011年01月22日 09:58:00

首先声明,这篇文章是转帖的,原文出处为:
http://www.javabloger.com/article/hadoop-hive-mysql-sqoop.html
如果作者不同意转帖,请联系我,我会马上删除,谢谢!

 

Apache Hive是目前大型数据仓库的免费首选产品之一,使用Apache Hive的人是不会期望在小数据量上做什么文章,例如把MySQL中的数据搬到Hive/HBase中去,那样的话原先很快能执行完毕的SQL,估计在 Hive上运行跟原来相比时间延长10倍都不止。但如果你有MySQL数据可以把大量的数据向Hive导入,如果上亿条的数据量再加上复杂的SQL查询条 件对于MySQL来说是一件比较头疼的事情,此时相比而言对于Hive来说还算比较easy没有那么非常的头痛,但是两者之间缺少一个沟通的桥梁。

                                              http://public.bay.livefilestore.com/y1p60OKte_dOFw7ZYaJxmWbVsmeD9khYFhlFKAFPqOg1Tg1utFKgemKSCsvkBOkvJMnU73WqnN_HXypPGmLo6oJtw/mysql-sqoop-hive.png?psid=1

而然伟大的云计算公司cloudera.com也是Hadoop强力支持者推出了Sqoop,Sqoop顾名思义SQL-to-Hadoop,在 sqoop中通过 ManagerFactory 抽象类对多种数据库类型进行了抽象,可以做到 Hsqldb、MySQL、Oracle、PostgreSQL 这些数据库中的数据可以向Hive中写入。
http://public.bay.livefilestore.com/y1pKunc2kOxZ0w1tVFtqFGKBJhHLXyhqCi3OgRu4r_KCnGR4OEnxHeXiZHJwCLwnIwoeTV-yLxROi-2n_3mBiD0HA/mysql-sqoop-hive-2.png?psid=1

   从导出/导入所有数据一条命令即可,而且可以对表和数据的筛选,开发的效率提升和配置的简洁是这个工具的特色所在,同样的机器配置、机器数量、数据量和数 据内容,但是换了不同的环境得到了不同的执行效率,通过对RMDBS到Hadoop的迁移,带来了性能的提升,所以就体现了sqoop的价值。

在一次开发大会上提到的Sqoop主要功能
    JDBC-based implementation
        ▪ Works with many popular database vendors
    Auto-generation of tedious user-side code
        ▪ Write MapReduce applications to work with your data, faster
    Integration with Hive
        ▪ Allows you to stay in a SQL-based environment
    Extensible backend
        ▪ Database-specific code paths for better performance

http://public.bay.livefilestore.com/y1pKunc2kOxZ0y2Pt8yOPnxCxLDqYhdKYcnyzq0g3mYjyyat1WZPHAyA4tWkH2DR7rYwENP9xdRVb8XTmOczMsx6Q/mysql-sqoop-hive-1.png

具体操作手册相见:
http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html (官方)

Sqoop工具实现,hive、Hbase、HDFS与mysql、oracle数据导入

文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,Oracle与Hbase的互导最后给出命令。 一、Mysql与HDFS互导数据 环境: 宿主机器操作系统为Win7,...

Hadoop数据工具sqoop,导入HDFS,HIVE,HBASE,导出到oracle

1. sqoop从oracle导入到HDFS [hadoop@slave-245 ~]$ sqoop import --append --connect jdbc:oracle:thin:@172.3...

大数据工具篇之Hive与HBase整合完整教程

最近的一次培训,用户特意提到Hadoop环境下HDFS中存储的文件如何才能导入到HBase,关于这部分基于HBase Java API的写入方式,之前曾经有过技术文章共享,本文就不再说明。本文基于Hi...

大数据案例——Hive、MySQL、HBase数据互导

本文是基于教程大数据案例——本地文件上传hive数据库,对数据在Hive,MySQL,HBase之间的互导进行进阶版的学习。数据集:淘宝用户点击商品操作数据集,共30万条记录。如果没有安装MySQL,...

Sqoop1 安装及Hive/Hbase数据与Mysql数据互导(九)

一、通过 Ambari 安装 Sqoop 通过ambari 进行自动安装,ambari 只安装了sqoop client。 网上有说如果要调用 sqoop api 来操作sqoop 则需要安装sqo...

mysql && hbase && hive && hdfs(部分) 数据互导

5. mysql && hbase && hive && hdfs(部分) 数据互导 5.1 mysql -> hive (包含增量导入) import命令导入到hdfs中默认采用...
  • refuil
  • refuil
  • 2017年04月11日 17:34
  • 328

整合Hadoop2.2.0+HBase0.96+Hive0.12+MySql集群

集群环境(虚拟机单机部署): 系统版本:Redhat 5.7 X64;Hadoop:Hadoop2.2.0;HBase:HBase0.96;Hive:Hive0.12;Mysql:MySql5....
  • wzs298
  • wzs298
  • 2014年12月01日 09:53
  • 2776

从hbase(hive)将数据导出到mysql

在上一篇文章《用sqoop进行mysql和hdfs系统间的数据互导》中,提到sqoop可以让RDBMS和HDFS之间互导数据,并且也支持从mysql中导入到HBase,但从HBase直接导入mysql...

使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟

基础环境 sqoop:sqoop-1.4.5+cdh5.3.6+78,hive:hive-0.13.1+cdh5.3.6+397,hbase:hbase-0.98.6+cdh5.3.6+...

hadoop(1.1.2)+hbase0.98+hive+pig+sqoop+mysql+vsftp+tomcat+linux搭建命令

一、linux基本操作 Linux系统下要和外界进行文件传输需要使用ftp,对此需要搭建ftp服务 (1)vsftp install : reference file :...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:MySQL向Hive/HBase的迁移工具
举报原因:
原因补充:

(最多只允许输入30个字)