大数据架构
说明:
1)大数据分析数据来源:
1.1)业务系统数据库中的数据;
1.2)日志数据;
1.3)消息数据;
2)数据收集方式
2.1)通过flume的方式采集;
2.2)通过消息中间件kafka的方式;
2.3)直接通过sqoop同步到hive中;
3)离线分析
3.1)采集的数据大多会保存到hdfs中;
3.2)再通过MapReduce清洗成有规则的数据,保存到hive中,做具体分析;
3.3)也可以将离线分析的结果传递到spark mlib用作机器学习;
4)实时分析
4.1)kafka采集的数据传到spark streaming做实时分析;
4.2)分析的结果直接保存到Hbase、Mongodb或其他存储库中;
4.3)也可以将实时分析的结果传递到spark mlib用作机器学习;
==============================
QQ群:143522604
群里有相关资源
欢迎和大家一起学习、交流、提升!
==============================