Sqoop碎碎念

本文介绍了Sqoop作为ETL工具的功能,主要用于将关系型数据库数据导入Hadoop。内容涵盖Sqoop的基本命令、从MySQL导入Hive的流程、Sqoop Job的创建、更新、删除和读取操作,以及如何查看Hive的建表语句。同时,讨论了使用Sqoop时可能遇到的数据重复和兼容性问题,并提供了相应的解决方案和参考资料。
摘要由CSDN通过智能技术生成

Sqoop是一个etl工具,是sql to hadoop的缩写。即将关系型数据库数据导入hadoop中。可以用sqoop来创建hive表和导数据,实际上也是在hdfs中创建目录和将数据存储在hdfs中。

1.Sqoop基本命令 

   @see url

2.mysql导入hive 

  --hive-database qianyang  #指定hive数据库

    @see link

3.Sqoop job的CRUD

     @see sqoop_crud

4.查看Hive建表语句

查看hive建表语句:show create table tablename;
查看hive表结构:describe  tablename; 简写:desc tablename;

   

/usr/bin/sqoop create-hive-table --connect jdbc:oracle:thin:@$server:$port:$mysql_database --username $usern
ame --password $password --hive-database $hdb --table $mysql_table
#>sqoop -version          Sqoop 1.4.6-cdh5.12.2
CREATE TABLE `test`(
  `id` string, 
   ...
  `create_date` string)
COMMENT 'Imported by sqoop on 2018/06/19 13:32:17'
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
WITH SERDEPROPERTIES ( 
  'field.delim'='\u0001', 
  'line.delim'='\n', 
  'serialization.format'='\u0001') 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  'hdfs://ketech-server51:8020/user/hive/warehouse/mydb.db/test'
TBLPROPERTIES (
  'transient_lastDdlTime'='1529415143')

 

 

5.job示例   

 

 

  #@see https://www.jianshu.com/p/084d1b1e094c

    

#!/bin/bash
source /etc/profile
source /root/.bashrc
source /etc/hive/conf/hive-env.sh
source /etc/sqoop/conf/sqoop-env.sh
#指定hive和hdfs用户
export HDFS_USER=hdfs
export HIVE_USER=hive
##############################################
##  $1:日期   $2:表名
##  第一个参数为日期,第二个参数为mysql表名
##############################################
#hive库名 default will be:default
hdb=test
#hive表名
hive_table=t_test
#mysql表名
mysql_table=T_TEST
#mysql服务器地址
server=192.168.0.75
#mysql端口号
port=1521
#数据库名
mysql_database=orcl
#用户名
username=root
#密码
password=123456
job_name=cdr_record

#判断Hive是否存在,不存在执行下面创建语句,否则跳过
/usr/bin/hive -e "use $hdb;select * from $hive_table limit 1;"
if [ $? -ne 0 ]
then
    echo "表不存在,执行创建
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值