Mysql和Hive之间通过Sqoop进行数据同步

最新推荐文章于 2024-05-25 16:56:26 发布

平凡人笔记

最新推荐文章于 2024-05-25 16:56:26 发布

阅读量1.5k

点赞数

分类专栏：平凡人笔记

本文链接：https://blog.csdn.net/qq_16485855/article/details/112482098

版权

平凡人笔记专栏收录该内容

149 篇文章 6 订阅

订阅专栏

文章回顾

理论

大数据框架原理简介

大数据发展历程及技术选型

实践

搭建大数据运行环境之一

搭建大数据运行环境之二

本地MAC环境配置

CPU数和内存大小

查看CPU数

sysctl machdep.cpu

# 核数为4
machdep.cpu.core_count: 4    
# cpu数量为8个，使用了超线程技术：四核八线程
machdep.cpu.thread_count: 8

内存大小

top -l 1 | head -n 10 | grep PhysMem

PhysMem: 16G used (10G wired), 67M unused.

在本地开了3个虚拟机centos服务器

虚拟机服务器配置

服务器1 192.168.84.128 4核4G
服务器2 192.168.84.131 1核2G
服务器3 192.168.84.132 1核2G

因为服务器1上的按照的软件比较多 所以这样分配核数和内存 可以将大数据环境运行起来

虚拟机软件给一个虚拟机分配核数和内存的方式

通过Sqoop查看Mysql数据库

/usr/local/sqoop/bin/sqoop list-databases --connect jdbc:mysql://hadoop001:3306/?useSSL=false --username root --password 123456

在Hive中创建测试表

创建test表

CREATE TABLE IF NOT EXISTS test (
id int
,uid int
,title string
,name string
,status int
,time timestamp)
COMMENT '简介'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY "\001"
LINES TERMINATED BY "\n"
STORED AS TEXTFILE;

创建test_out表

CREATE TABLE IF NOT EXISTS test_out (
name string
, count int
,time date)
COMMENT '简介'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;

hive删除表

使用truncate仅可删除内部表数据，不可删除表结构

truncate table 表名
（truncate可删除所有的行，但是不能删除外部表）

使用shell命令删除外部表

hdfs -dfs -rm -r 外部表路径

使用 drop 可删除整个表

drop table 表名

查看hive表

查询hive所有表

hive -e "show databases ;" > databases.txt

cat databases.txt
default

指定default数据库

./hive -d default

在Mysql中创建测试表

创建test

DROP TABLE IF EXISTS `test`;
CREATE TABLE `test` (
  `id` int(10) DEFAULT NULL,
  `uid` int(10) DEFAULT NULL,
  `title` varchar(100) DEFAULT NULL,
  `name` varchar(100) DEFAULT NULL,
  `status` int(10) DEFAULT NULL,
  `time` timestamp NULL DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

插入3条测试数据

INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (1, 1, '第一条数据', '平凡人笔记', 1, '2021-01-11 16:30:02');

INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (2, 2, '第二条数据', '孟凡霄', 2, '2021-01-11 16:30:20');

INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (3, 3, '第三条数据', '平凡人', 3, '2021-01-11 16:30:41');

创建test_out

DROP TABLE IF EXISTS `test_out`;
CREATE TABLE `test_out` (
  `name` varchar(100) DEFAULT NULL,
  `count` int(10) DEFAULT NULL,
  `time` date DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

Mysql导入Hive

/usr/local/sqoop/bin/sqoop import \
--driver com.mysql.jdbc.Driver \
--connect jdbc:mysql://hadoop001:3306/test?useSSL=false \
--username root \
--password 123456 \
--table test \
--fields-terminated-by '\001' \
--lines-terminated-by '\n' \
--delete-target-dir \
--num-mappers 1 \
--hive-import \
--hive-database default \
--hive-table test \
--direct

虽然有报错 

ERROR bonecp.BoneCP: Unable to start/stop JMX
java.security.AccessControlException: access denied ("javax.management.MBeanTrustPermission" "register")

但不影响导入结果

查看hive表

说明从Mysql导入hive成功

增量数据定时导入

mysql test表增加一条测试数据

INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (4, 4, '第四条数据', '笔记', 4, '2021-01-11 16:50:00');

删除指定job

/usr/local/sqoop/bin/sqoop job --delete testJob

添加一个增量更新的job

/usr/local/sqoop/bin/sqoop job --create testJob -- \
import \
--driver com.mysql.jdbc.Driver \
--connect jdbc:mysql://hadoop001:3306/test?useSSL=false \
--username root \
--password 123456 \
--table test \
--check-column time \
--incremental lastmodified \
--last-value '2018-08-09 15:30:29' \
--merge-key id \
--fields-terminated-by '\001' \
--lines-terminated-by '\n' \
--num-mappers 1 \
--target-dir /user/hive/warehouse/test

执行job

/usr/local/sqoop/bin/sqoop job --exec testJob

查看数据已被更新

查看job

/usr/local/sqoop/bin/sqoop job --show testJob

通常情况可以结合sqoop job和crontab等任务调度工具实现相关业务

Hive导入Hive


cd /usr/local/hive/bin

hive

# 统计后将结果数据加入另一个表
INSERT INTO TABLE 
test_out(name,count,time) 
SELECT name,count(1),to_date(time) 
FROM test 
GROUP BY name,to_date(time);

# 或者

INSERT OVERWRITE 
TABLE test_out
SELECT name,count(1),to_date(time) 
FROM test 
GROUP BY name,to_date(time);

查看统计结果

统计成功

Hive导入Mysql


# hive的default库中的test_out表数据导出到mysql的test库test_out表

/usr/local/sqoop/bin/sqoop export \
--connect "jdbc:mysql://hadoop001:3306/test?useUnicode=true&characterEncoding=UTF-8&useSSL=false&serverTimezone=Asia/Shanghai" \
--username root \
--password 123456 \
--input-null-string '\\N' \
--input-null-non-string '\\N' \
--input-fields-terminated-by '\t' \
--table test_out \
--hcatalog-database default \
--hcatalog-table test_out \
-m 1;

导出成功

可能遇到的问题及注意点

hive访问mysql数据库权限问题

服务器1上hive访问mysql如果报错

Access denied for user 'root'@'192.168.84.128' (using password: YES)

mysql需要授权访问者

GRANT ALL PRIVILEGES ON *.* TO 'root'@'192.168.84.128' IDENTIFIED BY '123456' WITH GRANT OPTION;

flush privileges;

在namenode上执行

报错：

RemoteException(org.apache.hadoop.ipc.StandbyException):
Operation category READ is not supported in state standby

原因：

服务器1是namenode节点 active 状态
服务器2是secondNamenode节点是 standby状态

执行命令要在active的namenode才可以

只有namenode才会有webui 50070端口

服务器1（192.168.84.128）上安装namenode 有50070端口
服务器2（192.168.84.131）上安装secondNamenode 有50070端口
服务器3（192.168.84.132）上没有安装namenode 没有

后记

接下来研究的方向：

1、hive运行原理
2、弄一笔数据走一下搭建好的大数据运行环境
3、10亿数据如何分库分表存储Mysql
4、10亿数据同步到hive
5、flink数据如何求交

平凡人笔记

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Mysql和Hive之间通过Sqoop进行数据同步

文章回顾理论大数据框架原理简介大数据发展历程及技术选型实践搭建大数据运行环境之一搭建大数据运行环境之二本地MAC环境配置CPU数和内存大小查看CPU数sysctl machdep.cpu# 核数为4machdep.cpu.core_count: 4    # cpu数量为8个，使用了超线程技术：四核八线程machdep.cpu.thread_count: 8  内存大小.
复制链接

扫一扫