流式数据分析
互联网企业常常需要面对这样的需求,管理员需要了解服务器的负载、网络traffic、磁盘IO等等状态信息,决策人员需要实时地获知站点交易下单笔数、交易总金额、PV、UV等业务数据。这些都是源源不断产生的流式数据,并且需要给用户实时响应计算结果,对于这种场景来说,尽管MapReduce可以作一些实时性方面的改进,但仍很难稳定地满足需求。
流式数据的特征是数据会源源不断的从各个地方汇集过来,来源众多,格式复杂,数据量巨大,对于流式数据的处理,有这样的一种观点,即数据的价值将随着时间的流逝而降低,因此数据生成后最好能够尽快的进行处理,实时的响应计算结果,而非等到数据累积以后再定期地进行处理,这样,对应的数据处理工具必须具备高性能,实时性,分布式和易用性几个特征