大数据技术原理与应用学习笔记(十一)

本系列历史文章

大数据技术原理与应用学习笔记(一)
大数据技术原理与应用学习笔记(二)
大数据技术原理与应用学习笔记(三)
大数据技术原理与应用学习笔记(四)
大数据技术原理与应用学习笔记(五)
大数据技术原理与应用学习笔记(六)
大数据技术原理与应用学习笔记(七)
大数据技术原理与应用学习笔记(八)
大数据技术原理与应用学习笔记(九)
大数据技术原理与应用学习笔记(十)

流计算

流计算简介

数据的处理模型

流数据具有以下特征:

  • 数据快速持续到达,潜在大小无穷无尽
  • 数据来源众多,格式复杂
  • 数据量大,但不十分关注存储,一旦经过处理,要么被丢弃,要么被归档存储
  • 注重数据的整体价值,不过分关注个别数据
  • 数据顺序颠倒或者不完整,系统无法控制将要处理的新到达的数据元素的顺序。

典型的三大框架:

  • Hadoop
  • Spark
  • Storm

流计算概念的概念与典型框架

流计算概念:实时获取来自不同数据源的海量数据进行实时处理,从中获取有价值的信息。
基本理念:

  • 数据价值随时间流逝而降低
  • 需实时处理

流系统计算要求:

  • 高性能
  • 海量式
  • 实时性
  • 分布性
  • 易用性
  • 可靠性

流计算处理流程

传统数据处理流程

用户查询→数据管理模块→得出result
两个前提:

  • 存储数据是旧的
  • 需用户主动查询

流数据处理流程

如下图所示:
在这里插入图片描述
数据实时采集系统基本架构分为 Agent、Collector、Store 三个部分,其关系如下图所示:
在这里插入图片描述
Agent:主动采集数据,把数据推到Collector
Collector:接收多个Agent数据并实现有序、可靠、高性能的转发
Store:存储Collector转发过来的数据(对于流计算不存储数据)

数据实时计算

数据实时计算阶段对采集的数据进行实时的分析和计算,并反馈实时结果
经流处理系统处理后的数据,可视情况进行存储,以便之后再进行分析计算。在时效性要求较高的场景中,处理之后的数据也可以直接丢弃

实时查询服务

实时查询服务:经由流计算框架得出的结果可供用户进行实时查询、展示或储存
传统的数据处理流程,用户需要主动发出查询才能获得想要的结果。而在流处理流程中,实时查询服务可以不断更新结果,并将用户所需的结果实时推送给用户
虽然通过对传统的数据处理系统进行定时查询,也可以实现不断地更新结果和结果推送,但通过这样的方式获取的结果,仍然是根据过去某一时刻的数据得到的结果,与实时结果有着本质的区别

流计算的应用

  • 实时分析
  • 实时处理

Storm——开源流计算框架

Storm简介

Storm特点:

  • 整合性
  • 简易API
  • 可扩展性
  • 容错性
  • 可靠的消息处理
  • 支持各种编程语言
  • 快速部署
  • 免费、开源

Storm主要术语

Streams: 流数据,是一个无限的Tuple序列。
Spouts: 每个Stream的源头抽象为Spouts,Spouts会从外部读取流数据并持续发出Tuple。
Bolts: Storm将Stream的状态转换过程抽象为Bolts。
Topology: Storm将Spouts和Bolts组成的网络抽象成Topology。最高层次的抽象概念,可以被提交到Storm集群执行。
Stream Groupings: 用于告知Topology如何在两个组件间进行Tuple传送。

Storm框架设计

Storm和Hadoop架构组件功能对应关系

HadoopStorm
应用名称JobTopology
系统角色JobTrackerNimbus
系统角色TasTrackerSupervisor
组件接口Map/ReduceSpot/Bolt

Storm工作流程

工作流程如下图所示:
在这里插入图片描述

Spark Streaming

Spark Streaming可整合多种输入数据源,如Kafka、Flume、HDFS,甚至是普通的TCP套接字。经处理后的数据可存储至文件系统、数据库,或显示在仪表盘里。
在这里插入图片描述
Spark Streaming的执行流程如图所示:
在这里插入图片描述

Spark Streaming与Storm的对比

Spark Streaming和Storm最大的区别在于,Spark Streaming无法实现毫秒级的流计算,而Storm可以实现毫秒级响应。

Storm的安装

关于Storm的安装可参考厦大数据库博客:Storm安装教程_CentOS6.4/Storm0.9.6

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值