025 Sqoop的概念及安装 Sqoop的语句（mysql连接问题已解决） Sqoop使用query导入和export导出

最新推荐文章于 2022-02-11 14:37:18 发布

C_time

最新推荐文章于 2022-02-11 14:37:18 发布

阅读量1.3k

点赞数 1

本文链接：https://blog.csdn.net/C_time/article/details/91359266

版权

大数据专栏收录该内容

32 篇文章 0 订阅

订阅专栏

Sqoop的概念及安装

hadoop生态圈中的一个迁移工具一个整合工具（hadoop和关系型数据库之间的数据迁移）

在这里插入图片描述

tar -zxvf /home/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /usr/local/

ok
修改环境变量
先改个名

vi /etc/profile
在这里插入图片描述
然后更新一下

看看sqoop里面的东西
在这里插入图片描述
将学习文档删掉吧

看看conf下的配置文件
在这里插入图片描述
先将绿色的名字改个名
mv ./conf/sqoop-env-template.sh ./conf/sqoop-env.sh

在这里插入图片描述

编辑该文件
hadoop目录写上
hbase没学先不写
hive写上
Zookeeper因为我们使用的ha高可用也写上没使用ha就不用

将jar包放到 lib下
cp /home/mysql-connector-java-5.1.6-bin.jar ./lib/

在这里插入图片描述

这样sqoop help 出现截图的下面的内容就行
在这里插入图片描述

Sqoop的语句

1.创建一个数据库
在这里插入图片描述

在这里插入图片描述

1.sqoop list-databases --connect jdbc:mysql://hadoop01:3306;
第一次试探性连接失败原来是 jar包忘记加了我明明记得加了唉气
再加一遍

这样表明连接成功不过没输入用户名和密码所以读不出来所有数据库.
…

sqoop语句里 \ 反斜杠代表我的sqoop语句没写完下一行还有

2.加上用户密码再去连接结果出错

sqoop list-databases --connect  jdbc:mysql://hadoop01:3306 \
--username root --password root \
;

在这里插入图片描述
解决办法

这样去连接没问题了数据出来了
在这里插入图片描述

-connect连接指定数据库
–driver 连接数据库驱动
-table 指定要读的表
-m 用n个map tasks 去并行导入说白了就是指定map个数
–lines-terminated-by 字段用什么分隔
–fields-terminated-by 行用什么分隔
–null-string ‘\N’ --null-non-string ‘\N’
这个表示空字符串怎么处理如果不加空字符串会用小写null表示（null 表示空 NUll表示非正常的值）
–target-dir HDFS destination dir hdfs的目标目录

1.import导入hdfs

sqoop import -connect jdbc:mysql://hadoop01:3306/ymp --driver com.mysql.jdbc.Driver \
-username root -password root \
-table hfile -m 1 --fields-terminated-by '\t' --lines-terminated-by '\n' \
--null-string '\\N' --null-non-string '\\N' \
--target-dir /sqo/01;

在这里插入图片描述

读出来的汉字是乱码
因为我建数据库时编码规则使用latin1
所以在存入mysql表时汉字就没存进去现在我改一下fname fpath的字段的编码规则

这样我的汉字存入表中再读一下试试

sqoop语句中
-m是为了将结果放到一个文件

不指定会生成多个文件三条记录生成三个文件太麻烦
这是视频截图我就不演示了不加-m会将三条记录分到三个文件
在这里插入图片描述

2.import指定列导入hdfs 使用–columns

–columns ‘fid,fname,fpath,owner’

sqoop import -connect jdbc:mysql://hadoop01:3306/ymp --driver com.mysql.jdbc.Driver \
-username root -password root \
-table hfile -m 1 \
--columns 'fid,fname,fpath,owner' \
--fields-terminated-by '\t' --lines-terminated-by '\n' \
--null-string '\\N' --null-non-string '\\N' \
--target-dir /sqo/03;

结果缺失只有四列

3.import导入hive表

–create-hive-table --hive-import --hive-overwrite
–hive-table olqf.sql --delete-target-dir
在这里插入图片描述
提前开启hive服务

hive --service metastore
在这里插入图片描述

sqoop import -connect jdbc:mysql://hadoop01:3306/ymp --driver com.mysql.jdbc.Driver \
-username root -password root \
-table hfile -m 1 \
--columns 'fid,fname,fpath,owner' \
--fields-terminated-by '\t' --lines-terminated-by '\n' \
--null-string '\\N' --null-non-string '\\N' \
--create-hive-table --hive-import --hive-overwrite \
--hive-table olqf.sql --delete-target-dir \
;

在这里插入图片描述
注意挺长时间
第一次运行出错

https://blog.csdn.net/LewyPhoenix/article/details/83115893
https://www.cnblogs.com/zll20153246/p/9345921.html
配置

然后更新一下文件

然后进入到hadoop的sbin目录下运行命令 mr-jobhistory-daemon.sh start historyserver
在这里插入图片描述
第二次运行成功

找到olqf下的sql 不有错
然后select 结果如下 ok

4.import指定where来导入

sqoop import -connect jdbc:mysql://hadoop01:3306/ymp --driver com.mysql.jdbc.Driver \
-username root -password root \
-table hfile -m 1 \
--columns 'fid,fname,fpath,owner' \
--where 'fid > 8' \
--fields-terminated-by '\t' --lines-terminated-by '\n' \
--null-string '\\N' --null-non-string '\\N' \
--target-dir /sqo/04 --delete-target-dir \
;

运行
在这里插入图片描述
结果没错

在这里插入图片描述

Sqoop使用query导入和export导出

5.import指定query来导入：

sqoop import -connect jdbc:mysql://hadoop01:3306/ymp --driver com.mysql.jdbc.Driver \
-username root -password root -m 1 \
--query 'select fid,fname,fpath from hfile where fid > 8 and $CONDITIONS' \
--fields-terminated-by '\t' --lines-terminated-by '\n' \
--null-string '\\N' --null-non-string '\\N' \
--target-dir /sqo/02 --delete-target-dir;

运行时出现这样的错误以为是密码问题结果上网一查写错了间隔
在这里插入图片描述

接着运行

ok 看结果

没有错

query替代了–table -columns -where
query 不能与这些同用

如果单写–where 或者 --columns 不会报错但是不会用到这两个只会使用query
注意

注意
query后跟的语句最好用单引号双引号再使用变量可能出错具体可看官网

6.import指定split-by来导入：

sqoop import -connect jdbc:mysql://hadoop01:3306/ymp --driver com.mysql.jdbc.Driver \
-username root -password root \
-m 2 -table hfile --split-by fid \
--fields-terminated-by '\t' --lines-terminated-by '\n' \
--null-string '\\N' --null-non-string '\\N' \
--target-dir /sqo/05 --delete-target-dir;

split-by和-m搭配使用 -m后面的n 将结果根据fid平分为n个结果文件
在这里插入图片描述
这里分成了三个具体我也没搞明白
请大神赐教！

可能是我没有设置什么东西？

先创建一个表接收数据
在这里插入图片描述
然后导出

sqoop export -connect jdbc:mysql://hadoop01:3306/ymp --driver com.mysql.jdbc.Driver \
-username root -password root -table hfile2 -m 1 \
--export-dir '/spo/02' \
--input-fields-terminated-by '\t' --input-lines-terminated-by '\n' \
--null-string '\\N' --null-non-string '\\N' \
;

–updata-mode 更新模式有两种只允许更新updataonly和允许插入allowinsert
–updata-key fid 将fid作为主键

第一次运行出错了让我看日志没看检查了下数据 02 就3列弄错了换了个03 4列数据没错了
在这里插入图片描述

ok 中文乱码因为我没设置字段的编码格式不管了

ok 先到这里

在这里插入图片描述

期待我的暑假开始大数据之旅

C_time

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
025 Sqoop的概念及安装 Sqoop的语句（mysql连接问题已解决） Sqoop使用query导入和export导出

Sqoop的概念及安装hadoop生态圈中的一个迁移工具一个整合工具（hadoop和关系型数据库之间的数据迁移）tar -zxvf /home/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /usr/local/ok修改环境变量先改个名vi /etc/profile然后更新一下看看sqoop里面的东西将学习文档删掉吧...
复制链接

扫一扫