大数据Sqoop技术
数据迁移工具
尘世壹俗人
做一只马喽
展开
-
Sqoop常用样例
mysql导入hdfs-方式一:全表导入bin/sqoop import –connect jdbc:mysql://hadoop102:3306/zy \ 数据库地址–username root –password 000000 –table staff \ mysql中的表–target-dir /user/company \ 导入的路径会自动生成–delete-target-dir \ 直接向hdfs导数据的时候这个参数没有用,这个是导入hive的时候用的由于习惯原因,写上了.原创 2021-03-29 12:21:27 · 161 阅读 · 1 评论 -
Sqoop的columns到底是用来干什么的
无论是在面试还是实际使用中,我们会遇到按需导入导出部分字段操作,这个时候大部分人会想到sqoop的columns参数,大部分人认为其就是按需导入需求的解,但其实并不是,甚至columns就是个鸡肋,且只能在导入操作时使用,它的正确用途是调整导入数据集中字段的顺序,下面通过一个例子来具体理解一下。2、columns可以从新定义导入命令实际导入那些字段,只是它很鸡肋,它只能从新定义被导入命令查询到的数据集中的字段,可我们完全可以在query中通过查询语句定义。,因此我们运行下面的命令。............原创 2022-08-17 14:03:21 · 1340 阅读 · 0 评论 -
Hive数据通过Sqoop导出为什么出现了本应为空的数据在数据库中成了值为null的字符串
这个是因为Hive底层还是用文件存储的数据,而且系列化控制的标识方式,还有些特别,在加上底层走的MR,所以控制被默认导入成了值为null的字符串,要避免这种情况我们要在Sqoop的提交命令中加两个参数--null-string ''--null-not-string ''这样导出之后就会发现,空数据任然是空,而不是值为null的字符串...原创 2021-03-24 15:21:35 · 886 阅读 · 0 评论 -
Sqoop是什么
大数据工作中,虽然有hdfs做数据仓库,但是其本身不够全面,一般只用来存储数据,别人想使用数据只能通过hadoop提供的文件操作命令或API或使用,这很不方便因此工作中对数据的多元化有着其他的数据仓库辅助组件,现在最常用的,sqoop算其中一个,它可以将数据在关系型数据库与hdfs中相互迁移,而且sqoop底层走的是Hadoop的MR我们使用sqoop可以将数据按照需要,进行各种移动,同时要知道两个概念,使用sqoop这种数据仓库辅助组件,从其他地方向数据仓库,如向hdfs中移动数据叫做导入,从数据仓库原创 2021-03-24 15:15:46 · 386 阅读 · 0 评论