存储系统:Habse是基于HDFS的一种数据库,Hbase的文件是存储在HDFS系统之上的。(解决了数据存储问题)
采集组件:sqoop(针对RDMS关系型数据库的数据进行采集,订单,交易,还有浏览,收藏的)
flume(实时的,比如用户点击的网页的图片和商品,这种点击流)
kaffka(第三方消息队列框架,可靠性好)
storm:流处理
Yarn:对资源进行分配,基于管理员配置的策略
HIve,Pig,Spark对结构化数据进行存储
MLlib:数据挖掘,实现推荐
Oozie:整体调度
Zookeeper:失败切换,多并发访问,提供请求响应
Ambari:提供图形化
SparkSQL:数据框dataafream
Spark Streaming:RDD,流数据
MLlib:机器学习数据模型库
GraphX:图计算
Packages:各种包
数据源:hadoop的HDFS,mysql,Json
除此以外,还需要mySQL,redis,web等