流数据------学习笔记

流数据是实时获取并分析的大量、多源、复杂格式的数据。其特点是实时性、数据量大且不关注存储,价值随时间递减。流计算系统强调高性能、海量、实时、分布式和可靠性,常见的框架有IBM InfoSphere Streams、Twitter Storm等。数据处理包括实时采集、计算和查询服务,涉及如Scribe、Kafka等日志采集系统。实时查询服务提供最新数据的即时查询能力。
摘要由CSDN通过智能技术生成

流数据特点:实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息

快速持续到达;

来源多,格式复杂;

数据量大,但不关心存储;

注重整体价值;

顺序颠倒或不完整;

数据的价值随着时间的流逝而降低;

流计算系统要求:

高性能
海量式
实时性
分布式
易用性

可靠性

流计算框架:

商业级:IBM InfoSphere Streams;IBM StramBase(用于银行);

开源流计算框架:Twitter Storm;Yahoo! S4;

公司自行开发:Facebook Puma;Dstream(百度);银河流数据处理平台(淘宝)

流数据处理过程:

数据实时采集;数据实时计算;数据实时查询服务;


数据实时采集:需要保证实时性、低延时、稳定可靠;

目前有许多互联网公司发布的开源分布式日志采

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值