iscsi没有可用于使用快速连接登陆的目标

sqoop简介

Sqoop是Hadoop生态系统”中的其中一员——Apache Sqoop。

Apache Sqoop(TM) is a tool designed for efficiently transferringbulk data between ApacheHadoopandstructured datastoressuch as relational databases.

Sqoop是一个为高效传输海量数据而设计的工具，一般用在从关系型数据库同步数据到非关系型数据库中。

使用Sqoop进行数据的导入、导出，其本质上是运行Mapreduce程序，充分利用了MR的并行化和容错性。

因为Sqoop专门是为大数据集设计的。Sqoop支持增量更新，将新记录添加到最近一次的导出的数据源上，或者指定上次修改的时间戳。

一、安装

通过在CDH平台添加服务安装Sqoop组件。

二、使用Sqoop操作各种数据库

在使用sqoop连接到各种数据库之前，首先得在sqoop环境中加入各种数据库的驱动包

下载驱动包上传到/opt/cloudera/parcels/CDH-5.12.2-1.cdh5.12.2.p0.4/lib/sqoop/lib

目录下，然后给驱动包授权 chmod 777 xxx

sqoop连接到Mysql数据库

获取Mysql数据库中的数据库名称

sqoop list-database -connect 'jdbc:mysql://10.1.96.xx:3306' -username test -password test

注意：不能使用mysql的超级管理员root，否则可能会出现错误

sqoop连接到sqlserver数据库

获取sqlserver数据库的某个数据库下的所有表的名称

sqoop list-tables -connect'jdbc:sqlserver://192.168.12.xx:1433;database=pems;username=sa;password=v3pems@2020'

sqoop 将oracle数据库中的某个库中的所有表导入到hive中

sqoop import-all-tables -connect jdbc:oracle:thin:@10.89.142.207:1521:orcl -username scott -password tiger -hive-database eda -hive-import -create-hive-table -m 1

注意：thin后面还是有个：的。否则会报错

使用Sqoop执行sql语句

sqoop eval -connect 'jdbc:sqlserver://192.168.12.65:1433;database=PEMS_DATA;username=sa;password=V3pems@2021' -query'select count(*) from rep_energy_tar'

注意：sqoop的抽取数据的时候目标源表名是区分大小写的

三、Sqoop导入数据出现的问题

出现上述问题的时候，先去cm的ui界面查看bug提示，报错提示中有url，复制到浏览器打开即可，然后滑动至最下方查看详细日志。

根据日志提示，大概是如下错误：

org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=EXECUTE, inode="/tmp/hadoop-yarn":grid:supergroup:drwx------

从上面的错误看出该用户没有执行权限查看了一下

hadoop fs -ls /tmp

确实，权限不够，只能切换到超级用户 su hdfs 赋予root 相应的权限

[hdfs@h1 root]$ hadoop fs -chown -R root:root /tmp

执行命令后，登陆root 账户

再次执行sqoop导入命令。

sqoop 导入数据到Hive

注：sqoop从导入数据的时候可以不用在目标源库下建立表，sqoop可以在导入的时候自动建立表。

sqoop从sqlserver导入数据到hive

sqoop import -connect 'jdbc:sqlserver://192.168.12.xx:1433;database=pems_data;username=sa;password=user' -table tablename -hive-import -hie-database fmcs -create-hive-table -m 1

还有可能出现的错误：

Output directory hdfs://hadoop:8020/user/root/output already exists

这是因为每次MR都会生成一个output目录但是不能自动删除，所以我们就把HDFS的输出目录删除：

hadoop fs -ls -R:查看目录

hadoop fs -rmr output:删除输出目录

四、sqoop常见操作命令

使用参数说明

1.数据导入:sqoop import

可通过 sqoop import --help 命令查看参数说明

普通参数