SQOOP是用于对hdfs与关系型数据库之间进行导入导出数据,与hive一样sqoop也是通过MapReduce来实现的,但是sqoop只有mapper。
(1)把关系型数据库中的数据导入到HDFS、Hive、HBase中
(2)把HDFS、Hive、HBase中的数据导出到关系型数据库中
(3)优势:避免频繁打开数据库连接
1.把数据从mysql导入到hdfs
sqoop import --connect jdbc:mysql://hadoop-master.ganymede:3306/mytestdb --username root --password root --table t_user --fields-terminated-by '\t'
//对null数据的处理,转换成其他字符 *
sqoop import --connect jdbc:mysql://hadoop-master.ganymede:3306/mytestdb --username root --password root --table t_user --fields-terminated-by '\t' --null-string '*'
//只使用一个mr
sqoop import --connect jdbc:mysql://hadoop-master.ganymede:3306/mytestdb --username root --password root --table t_user --fields-terminated-by '\t' --null-string '*' -m 1
// 允许追加内容
sqoop import --connect jdbc:mysql://hadoop-master.ganymede:3306/mytestdb --username root --password root --table t_user --fields-terminated-by '\t' --null-string '*' -m 1 --append
// 导入到hive
sqoop import --connect jdbc:mysql://hadoop-master.ganymede:3306/mytestdb --username root --password root --table t_user --fields-terminated-by '\t' --null-string '*' -m 1 --append --hive-import
sqoop import --connect jdbc:mysql://192.168.189.110:3306/spectereye --username spectereye --password spectereye --hive-import --hive-database SPECTER --table CODE_TACKINGCODE --hive-overwrite -m 1
sqoop import --connect jdbc:mysql://hadoopslave10:3306/fraud_sheep --username fraud_sheep --password fraud_sheep --hive-import --hive-database tmp --table other_risklibrary --hive-table fraud_sheep_other_risklibrary --hive-overwrite -m 4
sqoop import --connect jdbc:postgresql://localhost:5210/cpn --username cpn --password 123456 --table cpn_rate_increases_batch --target-dir /ods/20170711/s02/cpn_rate_increases_batch/ --delete-target-dir --fields-terminated-by '\0x01' --hive-delims-replacement ' ' --compress --compression-codec org.apache.hadoop.io.compress.BZip2Codec --null-string '\\N' --null-non-string '\\N'
// 导入增量数据到hive last-value 15 以数据库中的值开始
sqoop import --connect jdbc:mysql://hadoop-master.ganymede:3306/mytestdb --username root --password root --table t_user --fields-terminated-by '\t' --null-string '*' -m 1 --append --hive-import --check-column 'user_id' --incremental append --last-value 15
//导入hive增量数据
sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --columns "tbl_id,create_time" --where "tbl_id > 1" --target-dir /user/hive/result
2.把数据从hdfs导出到mysql中
sqoop export --connect jdbc:mysql://hadoop-master.ganymede:3306/mytestdb --username root --password root --table t_user --fields-terminated-by '\t' --export-dir '/temp/user'
导入postgresql
sqoop export -Dorg.apache.sqoop.export.text.dump_data_on_error=true --connect jdbc:postgresql://192.168.66.94:5432/olc --update-mode allowinsert --username olc_admin --password 'old_admin114' --table tmp_financial_position_detail --fields-terminated-by '\001' --columns 'fpdid,mid,fid,fc_id,ctnum,sat,state,amount_join,amount_profit,amount_return_profit,amount_exit,amount_manager,accumulated_income,income_set,auto_exit,time_join,time_exit_apply,time_exit,part_exit_amount,residual_amount,period_no,fp_name,fp_sub_name,fp_status,plan_sign,version_no,show_website,rate_min,rate_max,contract_period,bidding_period,lock_period,clearing_way,create_source,create_time,update_time,del_flag' --export-dir '/user/hive/warehouse/operation.db/olc_financial_position_detail_tmp' --input-null-string '\\N' --input-null-non-string '\\N'
数据:
hadoop fs -cat /temp/user/user.txt
Tom 123 15
Java test 16
Ganymede 123456 30
3.设置为作业,运行作业
sqoop job --create sqoopjob -- import --connect jdbc:mysql://hadoop-master.ganymede:3306/mytestdb --username root --password root --table t_user --fields-terminated-by '\t' --null-string '*' -m 1 --append --hive-import --check-column 'user_id' --incremental append --last-value 15
查看job
sqoop job --list
执行job
sqoop job -exec sqoopjob
保存密码,打开配置password文件设置 vi sqoop-site.xml
<property>
<name>sqoop.metastore.client.record.password</name>
<value>true</value>
<description>If true, allow saved passwords in the metastore.
</description>
</property>
删除job
sqoop job --delete sqoopjob