黑猴子的家：Sqoop RDBMS到Hive

最新推荐文章于 2021-04-20 22:07:48 发布

黑猴子的家

最新推荐文章于 2021-04-20 22:07:48 发布

阅读量831

点赞数

分类专栏： Sqoop Hive

本文链接：https://blog.csdn.net/qq_28652401/article/details/83510125

版权

Hive 同时被 2 个专栏收录

91 篇文章 1 订阅

订阅专栏

Sqoop

35 篇文章 2 订阅

订阅专栏

1、mysql 导入hive

[victor@node1 sqoop-1.4.7]$ bin/sqoop import \
--connect jdbc:mysql://node1:3306/company \
--username root \
--password 000000 \
--table staff \
--num-mappers 1 \
--hive-import \
--fields-terminated-by "\t" \
--hive-overwrite \
--hive-table staff_hive

尖叫提示：该过程分为两步
第一步将数据导入到HDFS
第二步将导入到HDFS的数据迁移到Hive仓库,第一步默认的临时目录是/user/用户/表名

2、hive自动创建表,注意事项

需要添加   --map-column-hive amount='DECIMAL(16%2C2)' 参数，'DECIMAL 会被转成double类型，所以为了防止丢失精度，添加上边参数

mysql数据库里面的字段是 tinyint 类型

通过sqoop 抓取出来的数据在HDFS 上面显示的true、false
解决办法：
jdbc会把tinyint 认为是java.sql.Types.BIT，然后sqoop就会转为Boolean了，悲剧吧
在连接上加上一句话tinyInt1isBit=false
jdbc:mysql://localhost/test?tinyInt1isBit=false

3、在hive中手动创建staff_hive表，映射一下数据

hive> create table staff_hive(id int,name string,sex string) row format delimited fields terminated by '\t' ;

4、sqoop导入hive表报错Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly,设置环境变量解决

[root@node1 ~]# vim /etc/profile
##HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.8.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

##HIVE_HOME
export HIVE_HOME=/opt/module/apache-hive-1.2.1-bin
export PATH=$PATH:$HIVE_HOME/bin

5、导入hive数据问题

[yinggu@node1 ~]$ vim /home/yinggu/bash_profile
export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HIVE_HOME/lib/*

[yinggu@node1 ~]$ source /etc/profile
[yinggu@node1 ~]$ source /home/yinggu/bash_profile

6、hive log异常问题

[yinggu@node1 ~]$ vim /opt/module/java1.8/jre/lib/security/java.policy
#新增
permission javax.management.MBeanTrustPermission "register";

7、hive 不能自动创建表问题

把hive-site.xml 拷贝到sqoop/conf目录下

[yinggu@node1 sqoop]$ cp /opt/module/hive/conf/hive-site.xml conf/

8、导入数据到hive中

[victor@node1 sqoop-1.4.7]$ bin/sqoop import \
--connect jdbc:mysql://node1:3306/company \
--username root \
--password 000000 \
--table staff \
--hive-import
--fields-terminated-by "\t" \

在hive中手动创建staff_hive表，映射一下数据

hive> create table staff(id int,name string,sex string) row format delimited fields terminated by '\t' ;

9、增量导入数据到hive中，mode=append

mysql> use company;
mysql> insert into company.staff(name, sex) values('qqq', 'Male');

[victor@node1 sqoop-1.4.7]$ bin/sqoop import \
--connect jdbc:mysql://node1:3306/company \
--username root \
--password 000000 \
--table staff \
--num-mappers 1 \
--fields-terminated-by "\t" \
--target-dir /user/hive/warehouse/staff_hive \
--check-column id \
--incremental append \
--last-value 3

尖叫提示：append不能与--hive-等参数同时使用
（Append mode for hive imports is not yet supported. Please remove the parameter --append-mode）

10、增量导入数据到hdfs中，mode=lastmodified,

先在mysql中建表并插入几条数据

[victor@node1 sqoop-1.4.7]$ mysql -uroot -p000000
mysql> create table company.staff_timestamp(id int(4), name varchar(255), sex varchar(255), last_modified timestamp default current_timestamp on update current_timestamp);

mysql> desc staff_timestamp;
mysql> insert into company.staff_timestamp (id, name, sex) values(1, 'aaa', 'female');
mysql> insert into company.staff_timestamp (id, name, sex) values(2, 'bbb', 'female');

先导入一部分数据,在/user/用户名/表名

[victor@node1 sqoop-1.4.7]$ bin/sqoop import \
--connect jdbc:mysql://node1:3306/company \
--username root \
--password 000000 \
--table staff_timestamp \
--delete-target-dir \
--m 1

再增量导入一部分数据

mysql> insert into company.staff_timestamp (id, name, sex) values(3, 'CCC', 'female');

[victor@node1 sqoop-1.4.7]$ bin/sqoop import \
--connect jdbc:mysql://node1:3306/company \
--username root \
--password 000000 \
--table staff_timestamp \
--check-column last_modified \
--incremental lastmodified \
--last-value "201*-01-21 22:20:38" \
--m 1 \
--append

尖叫提示：使用lastmodified方式导入数据要指定增量数据是要--append（追加）
还是要--merge-key（合并），last-value指定的值是会包含于增量导入的数据中