RDBMS
NoSQL
hadoop
【hbase】
hbase以Big Table为蓝本,以键值对存储,实现快速在主机内亿级记录中定位到所需的数据并访问它。
hbase弥补了Hadoop无法随即读写的缺陷,如果需要实时的访问数据,就把数据存入hbase。
HBase常应用于建立互联网索引、推荐系统后台、浏览历史及监控数据的存储和查询等场景。
【hive】
将结构化的数据库文件映射成数据库表,擅长SQL的开发者可以使用Hive离线的对数据进行处理分析。
由于速度慢,只能作为离线数据分析工具,不适合生产环境的在线查询操作,sql将转化成MapReduce
任务跑在Hadoop上,擅长SQL又不想写MapReduce的同学可以考虑Hive进行数据分析
【flume】
轻量级日志收集工具
【Sqoop】
RDBMS数据库和hadoop之间数据相互转移的开源工具,有时需要将RDBMS的在线业务数据导入hadoop进行离线数据分析。
可以使用Sqoop将MySql数据导入到Hive或者Hbase。Hive可以使用Hbase外部数据创建表。
【kafka】
Kafka是由Linkedin开源出来的一套高扩展的分布式消息系统,一套基于分区的发布/订阅系统,leader/follower。
利用Kafka系统,用户可以发布大量的消息,同时也能实时订阅消费消息
生产者会把数据记录发布到一个
Topic下面的分区中,具体方式是轮询或者基于主键做分区,而消费者会处理Topic中发布出来的数据记录。
【Flink】
【storm】
【spark】