X:原理上不存在这种流程或者没有必要。
加粗:数据库或数据仓库
非加粗:表示文件格式
☆:表示重点,正在整理中
左侧列:数据源头
上侧行:数据传递终点
Hbase | HDFS | json | txt | Mysql | Hive | Mongodb | |
Hbase | X | X(因为hbase本来就是基于HDFS的) | [6]或[7] | [6]或[7] | ☆ | [5] | ☆ |
HDFS | X | X | 下载后直接转化 | [3] | [3] | X(因为hive本来就是基于HDFS的) | |
json | X | 直接修改后缀名即可 | X | ||||
txt | X | [3] | |||||
Mysql | [1]或[2] | X | X | [4] | X | ||
Hive | ☆ | [3] | [3] | X | |||
Mongodb | ☆ | X | ☆ | X |
稍微说明下:
[3]中,把hdfs文件拷贝到本地就是HDFS->txt的过程
hbase->json可以从网上看到都是基于java api读取后处理的。
所以这里“[6]或[7]"是基于python来处理的。
Reference:
[6]python基于happybase对hbase增删改查-thrift1
[7]python操作hbase配置记录-基于thrift2协议