阿里的STORM——JSTORM

最新推荐文章于 2024-08-07 09:51:55 发布

liutong123987

最新推荐文章于 2024-08-07 09:51:55 发布

阅读量1.3k

点赞数

分类专栏：分布式

本文链接：https://blog.csdn.net/liutong123987/article/details/79398655

版权

JStorm是一个由阿里开发的分布式实时计算引擎，作为Storm的增强版，它提供了更稳定、强大和高效的实时计算解决方案。JStorm具备更精细的资源调度，如CPU、内存、磁盘和网络的隔离，以及更好的故障恢复机制。文章详细介绍了JStorm的安装步骤、基本概念如流、Spout/Bolt和Topology，以及与Storm的性能对比和优势。此外，还提到了资源硬隔离和常见问题的解决方案。

摘要由CSDN通过智能技术生成

看介绍文档貌似挺好：
https://github.com/alibaba/jstorm

Storm 和JStorm

阿里拥有自己的实时计算引擎

类似于hadoop 中的MR
开源storm响应太慢
开源社区的速度完全跟不上Ali的需求
降低未来运维成本
提供更多技术支持，加快内部业务响应速度

现有Storm无法满足一些需求

现有storm调度太简单粗暴，无法定制化
Storm 任务分配不平衡
RPC OOM一直没有解决
监控太简单
对ZK 访问频繁

JStorm相比Storm更稳定

Nimbus 实现HA：当一台nimbus挂了，自动热切到备份nimbus
原生Storm RPC：Zeromq 使用堆外内存，导致OS 内存不够，Netty 导致OOM；JStorm底层RPC 采用netty + disruptor保证发送速度和接受速度是匹配的
新上线的任务不会冲击老的任务：新调度从cpu，memory，disk，net 四个角度对任务进行分配，已经分配好的新任务，无需去抢占老任务的cpu，memory，disk和net
Supervisor主线
Spout/Bolt 的open/prepar
所有IO, 序列化，反序列化
减少对ZK的访问量：去掉大量无用的watch；task的心跳时间延长一倍；Task心跳检测无需全ZK扫描。

JStorm相比Storm调度更强大

彻底解决了storm 任务分配不均衡问题
从4个维度进行任务分配：CPU、Memory、Disk、Net
默认一个task，一个cpu slot。当task消耗更多的cpu时，可以申请更多cpu slot
默认一个task，一个memory slot。当task需要更多内存时，可以申请更多内存slot
默认task，不申请disk slot。当task 磁盘IO较重时，可以申请disk slot
可以强制某个component的task 运行在不同的节点上
可以强制topology运行在单独一个节点上
可以自定义任务分配，提前预约任务分配到哪台机器上，哪个端口，多少个cpu slot，多少内存，是否申请磁盘
可以预约上一次成功运行时的任务分配，上次task分配了什么资源，这次还是使用这些资源

JStorm相比Storm性能更好

JStorm 0.9.0 性能非常的好，使用netty时单worker 发送最大速度为11万QPS，使用zeromq时，最大速度为12万QPS。

JStorm 0.9.0 在使用Netty的情况下，比Storm 0.9.0 使用netty情况下，快10%，并且JStorm netty是稳定的而Storm 的Netty是不稳定的
在使用ZeroMQ的情况下， JStorm 0.9.0 比Storm 0.9.0 快30%

性能提升的原因：

Zeromq 减少一次内存拷贝
增加反序列化线程
重写采样代码，大幅减少采样影响
优化ack代码
优化缓冲map性能
Java 比clojure更底层

JStorm的其他优化点

资源隔离。不同部门，使用不同的组名，每个组有自己的Quato；不同组的资源隔离；采用cgroups 硬隔离
Classloader。解决应用的类和Jstorm的类发生冲突，应用的类在自己的类空间中
Task 内部异步化。Worker 内部全流水线模式，Spout nextTuple和ack/fail运行在不同线程

具体如何实现，请参考本ID的的博文系列【jstorm-源码解析】

概叙 & 应用场景

JStorm 是一个分布式实时计算引擎。

JStorm 是一个类似Hadoop MapReduce的系统，用户按照指定的接口实现一个任务，然后将这个任务递交给JStorm系统，Jstorm将这个任务跑起来，并且按7 * 24小时运行起来，一旦中间一个worker 发生意外故障，调度器立即分配一个新的worker替换这个失效的worker。

因此，从应用的角度，JStorm 应用是一种遵守某种编程规范的分布式应用。从系统角度， JStorm一套类似MapReduce的调度系统。从数据的角度，是一套基于流水线的消息处理机制。

实时计算现在是大数据领域中最火爆的一个方向，因为人们对数据的要求越来越高，实时性要求也越来越快，传统的Hadoop Map Reduce，逐渐满足不了需求，因此在这个领域需求不断。

优点

在Storm和JStorm出现以前，市面上出现很多实时计算引擎，但自storm和JStorm出现后，基本上可以说一统江湖：究其优点：

开发非常迅速，接口简单，容易上手，只要遵守Topology，Spout， Bolt的编程规范即可开发出一个扩展性极好的应用，底层rpc，worker之间冗余，数据分流之类的动作完全不用考虑。
扩展性极好，当一级处理单元速度，直接配置一下并发数，即可线性扩展性能
健壮，当worker失效或机器出现故障时，自动分配新的worker替换失效worker
数据准确性，可以采用Acker机制，保证数据不丢失。如果对精度有更多一步要求，采用事务机制，保证数据准确。

应用场景

JStorm处理数据的方式是基于消息的流水线处理，因此特别适合无状态计算，也就是计算单元的依赖的数据全部在接受的消息中可以找到，并且最好一个数据流不依赖另外一个数据流。

因此，常常用于

日志分析，从日志中分析出特定的数据，并将分析的结果存入外部存储器如数据库。目前，主流日志分析技术就使用JStorm或Storm
管道系统，将一个数据从一个系统传输到另外一个系统，比如将数据库同步到Hadoop
消息转化器，将接受到的消息按照某种格式进行转化，存储到另外一个系统如消息中间件
统计分析器，从日志或消息中，提炼出某个字段，然后做count或sum计算，最后将统计值存入外部存储器。中间处理过程可能更复杂。

如何安装

安装步骤

从Downloads下载relase包
搭建Zookeeper集群
安装Python 2.6
安装Java
安装zeromq
安装Jzmq
配置$JSTORM_HOME/conf/storm.yaml
搭建web ui
启动JStorm集群

搭建Zookeeper集群

本处不细描叙Zookeeper安装步骤

安装步骤麻烦参考 ”zookeeper 安装步骤“
zookeeper配置麻烦参考 “zookeeper 配置介绍”

搭建JStorm集群

安装python 2.6

如果当前系统提供python，可以不用安装python
自己可以参考 python
也可以使用https://github.com/utahta/pythonbrew 来安装python > curl -kLhttp://xrl.us/pythonbrewinstall | bash

-s $HOME/.pythonbrew/etc/bashrc && source $HOME/.pythonbrew/etc/bashrc

pythonbrew install 2.6.7

pythonbrew switch 2.6.7

安装java

注意，如果当前系统是64位系统，则需要下载java 64位，如果是32为系统，则下载32位java

安装zeromq(如果不使用zeromq，可以不安装zeromq)

wget http://download.zeromq.org/zeromq-2.1.7.tar.gz

tar zxf zeromq-2.1.7.tar.gz

cd zeromq-2.1.7

./configure

make

sudo make install

sudo ldconfig

如果没有root权限，或当前用户无sudo权限时，执行 “ ./configure --prefix=/home/xxxxx” 替换 “./configure”, 其中/home/xxxx 为安装目标目录