Lambda架构
Lambda 是用Nathan Marz(实时处理框架storm的作者) 提出的用于同时处理离线和实时的数据的,可容错的,可扩展的分布式系统。它具备强鲁棒性,提供低延迟和持续更新。它通过批量MapReduce作业提供了虽有些延迟但是结果准确的计算,同时通过Strom等实时计算引擎将最新数据的计算结果初步展示出来
缺点:
1、实时与批量计算结果不一致引起的数据口径问题;基于MapReduce和HDFS的Lambda系统有一个长达数小时的市价窗口,在这个窗口内,由于是是是任务事变二产生的不准确的结果一直存在
2、Lamdba架构需要在两个不同的API中对同样的业务逻辑进行两次编程,一次为批量计算的系统,一次为流失计算的系统,针对同一的业务问题产生了两个代码库,各有不同的漏洞,系统维护成本大大提高。
3、批量计算在计算窗口内无法完成:在IOT时代,数据量级越来越大,经常发现夜间只有4、5个小时的时间窗口,已经无法完成白天20多个小时累计的数据,保证早上上班前准时出数据已成为每个大数据团队头疼的问题。
4、数据源变化都要重新开发,开发周期长:每次数据源的格式变化,业务的逻辑变化都需要针对ETL和Streaming做开发修改,整体开发周期很长,业务反应不够迅速。
5、服务器存