sqoop
大壮vip
博学而笃志,切问而近思。
展开
-
【sqoop隐藏bug】sqoop从mysql导到hive时tinyint(1)格式自动变成Boolean解决方案
官网原文:27.2.5. MySQL: Import of TINYINT(1) from MySQL behaves strangelyProblem: Sqoop is treating TINYINT(1) columns as booleans, which is for example causing issues with HIVE import. This is because...原创 2020-04-22 19:24:21 · 443 阅读 · 0 评论 -
【sqoop隐藏密码方法】
1.创建sqoop job 数据增量导入作业但是这种方法把密码暴露在外面,不安全sqoop job --create myjob -- import --connect jdbc:mysql://192.168.56.1:3306/fangsou--username root --password root--table ershoufang -m 1--target-di...原创 2020-04-07 10:05:15 · 335 阅读 · 1 评论 -
Sqoop导出模式——全量、增量insert、更新update的介绍以及脚本示例
全量导出HQL示例:insert overwrite directory ‘/user/root/export/test’ row format delimited fields terminated by ‘,’ STORED AS textfile select F1,F2,F3 from <sourceHiveTable>;SQOOP脚本:sqoop expor...原创 2019-07-04 14:10:02 · 1497 阅读 · 0 评论 -
Sqoop、datax——源数据换行符导致的数据不正确
会出现多条数据的情况,数据是有问题的。这里我们要找到办法。首先来看sqoop的办法--hive-drop-import-delims然后等一会儿看看是否有问题。然后找一下datax的是否有问题。datax暂时除了改源码没有想到办法,但是别急,后续我会跟进的。来看下sqoop是否已经ok了,sqoop牛逼...原创 2019-06-28 17:01:40 · 2519 阅读 · 8 评论 -
sqoop天坑,--direct速度确实快,但是把我的主键id搞没了,搞成null、NULL
这个坑一定要注意,不然没有主键id,数据是异常的,没有办法用的。这么说吧,一开始高兴,搞了mysqldump,我说哇!速度提神了至少两倍,但是把我的主键id搞没了,没有了id,那还有什么用啊。所以只能被迫还是用jdbc吧,虽然没有mysql的mysqldump快了,但是至少保证了数据是正确的。在此记录:移除--direct参数,速度明显变慢,但是:...原创 2019-06-04 18:07:11 · 2067 阅读 · 2 评论 -
hadoop调优。hadoop速度太慢,所以kill任务,修改配置增大内存
hadoop job -listhadoop job -kill job_201212111628_11166修改yarn.scheduler.maximum-allocation-mb 和 yarn.nodemanager.resource.memory-mb的默认值为2G 然后重启集群如果资源充足也可以适当放大。...原创 2019-06-04 14:10:58 · 1679 阅读 · 0 评论 -
sqoop使用mysqldump提高速度
来学习一下,首先个人喜欢把这两个参数用上。 --verbose --direct前者是日志打的很详细后者是使用专门的数据库,比方说mysql的话会使用mysql自带的mysqldump来做事情,那么,我们就要搞一搞了。但是一般添加参数之后会报错。Error: java.io.IOException: Cannot run program "mysqld...原创 2019-06-04 11:41:04 · 1554 阅读 · 0 评论 -
sqoop的 import-all-tables
一、介绍import-all-tables工具将一组表从RDBMS导入到HDFS。来自每个表的数据存储在HDFS的单独目录中。1、使用要求要使import-all-tables工具有用,必须满足以下条件:1.每个表必须具有主键或使用--autoreset-to-one-mapper选项。2.导入每张表的所有列。3.使用默认拆分列,不能...转载 2019-06-04 10:06:11 · 3204 阅读 · 0 评论 -
CDH集成Sqoop2做全库导入
Sqoop简介Sqoop是一个用于Hadoop和关系型数据库或主机之间的数据传输工具。它可以将数据从关系型数据库import到HDFS,也可以从HDFS export到关系型数据库,通过Hadoop的MapReduce实现。我们现在的需求就是需要sqoop导入,真个库从mysql到hive里面咯。Sqoop命令执行 sqoop help, 可以看到Sqoop支持的命令:Sq...原创 2019-05-24 11:37:07 · 1134 阅读 · 0 评论 -
CDH使用azkaban整合sqoop来做数据采集
其实也就是需要整合ods层数据内容如下,非常的简单azkaban整合sqoop来抽取mysql数据到hive中来。 1.安装从节点的azkaban(以前有文档,要么就是说区别就是,现在是centos7.6,版本比较新而已) 也比较简单,可以参考我的文档来搭建,非常的简单。。。 https://b...原创 2019-05-15 17:07:44 · 2584 阅读 · 1 评论