Sqoop是一个etl工具,是sql to hadoop的缩写。即将关系型数据库数据导入hadoop中。可以用sqoop来创建hive表和导数据,实际上也是在hdfs中创建目录和将数据存储在hdfs中。
1.Sqoop基本命令
@see url
2.mysql导入hive
--hive-database qianyang #指定hive数据库
@see link
3.Sqoop job的CRUD
@see sqoop_crud
4.查看Hive建表语句
查看hive建表语句:show create table tablename;
查看hive表结构:describe tablename; 简写:desc tablename;
/usr/bin/sqoop create-hive-table --connect jdbc:oracle:thin:@$server:$port:$mysql_database --username $usern
ame --password $password --hive-database $hdb --table $mysql_table
#>sqoop -version Sqoop 1.4.6-cdh5.12.2
CREATE TABLE `test`(
`id` string,
...
`create_date` string)
COMMENT 'Imported by sqoop on 2018/06/19 13:32:17'
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'='\u0001',
'line.delim'='\n',
'serialization.format'='\u0001')
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
'hdfs://ketech-server51:8020/user/hive/warehouse/mydb.db/test'
TBLPROPERTIES (
'transient_lastDdlTime'='1529415143')
5.job示例
#@see https://www.jianshu.com/p/084d1b1e094c
#!/bin/bash
source /etc/profile
source /root/.bashrc
source /etc/hive/conf/hive-env.sh
source /etc/sqoop/conf/sqoop-env.sh
#指定hive和hdfs用户
export HDFS_USER=hdfs
export HIVE_USER=hive
##############################################
## $1:日期 $2:表名
## 第一个参数为日期,第二个参数为mysql表名
##############################################
#hive库名 default will be:default
hdb=test
#hive表名
hive_table=t_test
#mysql表名
mysql_table=T_TEST
#mysql服务器地址
server=192.168.0.75
#mysql端口号
port=1521
#数据库名
mysql_database=orcl
#用户名
username=root
#密码
password=123456
job_name=cdr_record
#判断Hive是否存在,不存在执行下面创建语句,否则跳过
/usr/bin/hive -e "use $hdb;select * from $hive_table limit 1;"
if [ $? -ne 0 ]
then
echo "表不存在,执行创建