Storm基础

最新推荐文章于 2020-08-07 20:34:12 发布

迷茫君

最新推荐文章于 2020-08-07 20:34:12 发布

阅读量223

点赞数

分类专栏： Storm 文章标签： storm Storm基础

本文链接：https://blog.csdn.net/qq_41610418/article/details/82119816

版权

Storm 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、Storm是什么

　　Storm是开源的分布式实时计算系统，擅长处理海量数据，适用于数据实时处理而非批处理。

　　批处理使用的大多是鼎鼎大名的hadoop或者hive，作为一个批处理系统，hadoop以其吞吐量大、自动容错等优点，在海量数据处理上得到了广泛的使用。但是，hadoop不擅长实时计算，因为它天然就是为批处理而生的，这也是业界一致的共识。

　　举个搜索场景中的例子，当一个卖家发布了一条宝贝信息时，他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买，相反，如果这个宝贝要等到第二天或者更久才可以被搜出来，估计就会有不少损失了。再举一个推荐的例子，如果用户昨天在淘宝上买了一双袜子，今天想买一副泳镜去游泳，但是却发现系统在不遗余力地给他推荐袜子、鞋子，根本对他今天寻找泳镜的行为视而不见，这样商家的利益就有所损失。这是因为后台系统做的是每天一次的全量处理，而且大多是在夜深人静之时做的，那么客户今天白天做的事情要到明天才能反映出来。这也就是为什么需要实时处理的原因。

二、Storm特点

Storm有许多用例：实时分析，在线机器学习，连续计算，分布式RPC，ETL等。

Storm很快：一个基准测试表示每个节点每秒处理超过一百万个元组。它具有可扩展性，容错性，可确保您的数据得到处理，并且易于设置和操作。

Storm集成了您已经使用的排队和数据库技术。Storm拓扑消耗数据流并以任意复杂的方式处理这些流，然后在计算的每个阶段之间重新划分流。

三、Storm核心概念

Nimbus：Storm集群主节点，监控topo的运行状态，负责资源分配和任务调度。我们提交任务和截止任务都是在Nimbus上操作的。一个Storm集群只有一个Nimbus节点。

Supervisor：Storm集群工作节点，接受Nimbus分配任务，管理所有Worker。

Worker：工作进程，执行特定的task，但是本身不执行任务，创建一个executor，由executor执行。

Task：任务，实际要处理的业务逻辑，每个Spout和Bolt都是一个任务，每个任务都是一个线程。

Topology：计算拓扑，包含了应用程序的逻辑。

Stream：消息流，关键抽象，是没有边界的Tuple序列。

Spout：消息流的源头，Topology的消息生产者。

Bolt：消息处理单元，可以过滤、聚合、查询数据库。

Stream grouping：消息分发策略，一共6种，定义每个Bolt接受何种输入。

Reliability：可靠性，Storm保证每个Tuple都会被处理。

四、Storm原理架构

1. Storm集群架构图

这里写图片描述

Zookeeper集群在Storm集群中的作用：

　　Zookeeper集群负责Nimbus节点和Supervior节点之间的通信，监控各个节点之间的状态。比如通常我们提交任务的时候是在Nimbus节点上执行的，Nimbus节点通过zk集群将任务分发下去，而Supervisor是真正执行任务的地方。Nimbus节点通过zk集群监控各个Supervisor节点的状态，当某个Supervisor节点出现故障的时候，Nimbus节点就会通过zk集群将那个Supervisor节点上的任务重新分发，在其他Supervisor节点上执行。这就意味着Storm集群也是高可用集群，如果Nimbus节点出现故障的时候，整个任务并不会停止，但是任务的管理会出现影响，通常这种情况下我们只需要将Nimbus节点恢复就可以了。Nimbus节点不支持高可用，这也是Storm目前面临的问题之一。不过一般情况下，Nimbus节点的压力不大，通常不会出现问题。

　　一般情况下，Zookeeper集群的压力并不大，一般只需要部署3台就够了。Zookeeper集群在Storm集群中逻辑上是独立的，但在实际部署的时候，一般会将zk节点部署在Nimbus节点或Supervisor节点上。

2. 数据处理流程图

storm处理数据的特点：数据源源不断，不断处理。
这里写图片描述

3. 拓扑图分析

　　storm中是没有数据存储结构的，我们需要自己设计数据落地接口，指明数据存储到哪一部分中。Storm本身是不存储数据的。
　　 storm中运行的一个实时应用程序，因为各个组件间的消息流动形成逻辑上的一个拓扑结构。一个topology是spouts和bolts组成的图，通过stream groupings将图中的spouts和bolts连接起来，如下图：
　　这里写图片描述
　　

五、Storm与Hadoop区别

Ｓtorm	Hadoop
实时处理	批处理
无状态	有状态
使用zookeeper协同的主从架构	不需要zookeeper的主从架构
每秒处理数万数据	MR处理耗时较长
等待任务，直到手动停止	任务完成之后就停止

六、Storm应用场景

　　Storm 与其他大数据解决方案的不同之处在于它的处理方式。Hadoop 在本质上是一个批处理系统。数据被引入 Hadoop 文件系统 (HDFS) 并分发到各个节点进行处理。当处理完成时，结果数据返回到 HDFS 供始发者使用。Storm 支持创建拓扑结构来转换没有终点的数据流。不同于 Hadoop 作业，这些转换从不停止，它们会持续处理到达的数据。

Twitter列举了Storm的三大类应用：

信息流处理{Stream processing}
　　Storm可用来实时处理新数据和更新数据库，兼具容错性和可扩展性。即Storm可以用来处理源源不断流进来的消息，处理之后将结果写入到某个存储中去。
连续计算{Continuous computation}
　　Storm可进行连续查询并把结果即时反馈给客户端。比如把Twitter上的热门话题发送到浏览器中。
分布式远程程序调用{Distributed RPC}
　　Storm可用来并行处理密集查询。Storm的拓扑结构是一个等待调用信息的分布函数，当它收到一条调用信息后，会对查询进行计算，并返回查询结果。举个例子Distributed RPC可以做并行搜索或者处理大集合的数据。
　　通过配置drpc服务器，将storm的topology发布为drpc服务。客户端程序可以调用drpc服务将数据发送到storm集群中，并接收处理结果的反馈。这种方式需要drpc服务器进行转发，其中drpc服务器底层通过thrift实现。适合的业务场景主要是实时计算。并且扩展性良好，可以增加每个节点的工作worker数量来动态扩展。

迷茫君

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Storm基础

一、Storm是什么　　Storm是开源的分布式实时计算系统，擅长处理海量数据，适用于数据实时处理而非批处理。　　批处理使用的大多是鼎鼎大名的hadoop或者hive，作为一个批处理系统，hadoop以其吞吐量大、自动容错等优点，在海量数据处理上得到了广泛的使用。但是，hadoop不擅长实时计算，因为它天然就是为批处理而生的，这也是业界一致的共识。　　举个搜索场景中的例子，当一个卖家发...
复制链接

扫一扫