![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Bigdata
nanjue1234
学无止境
展开
-
大数据同步工具DataX与Sqoop之比较
DataX是一个在异构的数据库/文件系统之间高速交换数据的工具,实现了在任意的数据处理系统(RDBMS/Hdfs/Local filesystem)之间的数据交换,由淘宝数据平台部门完成。Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS...转载 2018-09-21 21:14:29 · 10649 阅读 · 0 评论 -
Spark-Checkpoint
checkpoint在spark中主要有两块应用:一块是在spark core中对RDD做checkpoint,可以切断做checkpoint RDD的依赖关系,将RDD数据保存到可靠存储(如HDFS)以便数据恢复;另外一块是应用在spark streaming中,使用checkpoint用来保存DStreamGraph以及相关配置信息,以便在Driver崩溃重启的时候能够接着之前进度继续进行处理...转载 2018-09-22 09:42:20 · 140 阅读 · 0 评论 -
Hbase表设计
hbase性能调优案例 1、人员-角色 人员有多个角色 角色优先级 角色有多个人员 人员 删除添加角色 角色 可以添加删除人员 人员 角色 删除添加 设计思路 person表 rowkey cf1 - 人员基本信息 cf2 - 角色列表 pid cf1:pname=;cf1:age;.. cf2:rid=n数字、优先级;...原创 2018-09-22 12:09:24 · 424 阅读 · 0 评论