1、mysql 导入hive
[victor@node1 sqoop-1.4.7]$ bin/sqoop import \
--connect jdbc:mysql://node1:3306/company \
--username root \
--password 000000 \
--table staff \
--num-mappers 1 \
--hive-import \
--fields-terminated-by "\t" \
--hive-overwrite \
--hive-table staff_hive
尖叫提示:该过程分为两步
第一步将数据导入到HDFS
第二步将导入到HDFS的数据迁移到Hive仓库,第一步默认的临时目录是/user/用户/表名
2、hive自动创建表,注意事项
需要添加 --map-column-hive amount='DECIMAL(16%2C2)' 参数,'DECIMAL 会被转成double类型,所以为了防止丢失精度,添加上边参数
mysql数据库里面的字段是 tinyint 类型
通过sqoop 抓取出来的数据在HDFS 上面显示的true、false
解决办法:
jdbc会把tinyint 认为是java.sql.Types.BIT,然后sqoop就会转为Boolean了,悲剧吧
在连接上加上一句话tinyInt1isBit=false
jdbc:mysql://localhost/test?tinyInt1isBit=false
3、在hive中手动创建staff_hive表,映射一下数据
hive> create table staff_hive(id int,name string,sex string) row format delimited fields terminated by '\t' ;
4、sqoop导入hive表报错Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly,设置环境变量解决
[root@node1 ~]# vim /etc/profile
##HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.8.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
##HIVE_HOME
export HIVE_HOME=/opt/module/apache-hive-1.2.1-bin
export PATH=$PATH:$HIVE_HOME/bin
5、导入hive数据问题
[yinggu@node1 ~]$ vim /home/yinggu/bash_profile
export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HIVE_HOME/lib/*
[yinggu@node1 ~]$ source /etc/profile
[yinggu@node1 ~]$ source /home/yinggu/bash_profile
6、hive log异常问题
[yinggu@node1 ~]$ vim /opt/module/java1.8/jre/lib/security/java.policy
#新增
permission javax.management.MBeanTrustPermission "register";
7、hive 不能自动创建表问题
把hive-site.xml 拷贝到sqoop/conf目录下
[yinggu@node1 sqoop]$ cp /opt/module/hive/conf/hive-site.xml conf/
8、导入数据到hive中
[victor@node1 sqoop-1.4.7]$ bin/sqoop import \
--connect jdbc:mysql://node1:3306/company \
--username root \
--password 000000 \
--table staff \
--hive-import
--fields-terminated-by "\t" \
在hive中手动创建staff_hive表,映射一下数据
hive> create table staff(id int,name string,sex string) row format delimited fields terminated by '\t' ;
9、增量导入数据到hive中,mode=append
mysql> use company;
mysql> insert into company.staff(name, sex) values('qqq', 'Male');
[victor@node1 sqoop-1.4.7]$ bin/sqoop import \
--connect jdbc:mysql://node1:3306/company \
--username root \
--password 000000 \
--table staff \
--num-mappers 1 \
--fields-terminated-by "\t" \
--target-dir /user/hive/warehouse/staff_hive \
--check-column id \
--incremental append \
--last-value 3
尖叫提示:append不能与--hive-等参数同时使用
(Append mode for hive imports is not yet supported. Please remove the parameter --append-mode)
10、增量导入数据到hdfs中,mode=lastmodified,
先在mysql中建表并插入几条数据
[victor@node1 sqoop-1.4.7]$ mysql -uroot -p000000
mysql> create table company.staff_timestamp(id int(4), name varchar(255), sex varchar(255), last_modified timestamp default current_timestamp on update current_timestamp);
mysql> desc staff_timestamp;
mysql> insert into company.staff_timestamp (id, name, sex) values(1, 'aaa', 'female');
mysql> insert into company.staff_timestamp (id, name, sex) values(2, 'bbb', 'female');
先导入一部分数据,在/user/用户名/表名
[victor@node1 sqoop-1.4.7]$ bin/sqoop import \
--connect jdbc:mysql://node1:3306/company \
--username root \
--password 000000 \
--table staff_timestamp \
--delete-target-dir \
--m 1
再增量导入一部分数据
mysql> insert into company.staff_timestamp (id, name, sex) values(3, 'CCC', 'female');
[victor@node1 sqoop-1.4.7]$ bin/sqoop import \
--connect jdbc:mysql://node1:3306/company \
--username root \
--password 000000 \
--table staff_timestamp \
--check-column last_modified \
--incremental lastmodified \
--last-value "201*-01-21 22:20:38" \
--m 1 \
--append
尖叫提示:使用lastmodified方式导入数据要指定增量数据是要--append(追加)
还是要--merge-key(合并),last-value指定的值是会包含于增量导入的数据中