storm、jstorm 调研系列（一）----jstorm介绍以及与spark的比较，外加一些基础概念

最新推荐文章于 2024-01-24 01:54:11 发布

VIP文章啾啾川

最新推荐文章于 2024-01-24 01:54:11 发布

阅读量8.6k

点赞数 3

分类专栏：实时计算文章标签： storm jstorm 基础概念 spark 对比

本文链接：https://blog.csdn.net/yc_pku/article/details/52205000

版权

storm、jstorm是干什么的

storm是一款开源的、分布式的、低延迟的、可扩展的、容错的实时计算框架，采用clojure和java的混合编程，总体两者的代码总量是55开的，但clojure语言具有很强的表现力，所以storm的核心基本都是使用clojure语言实现的。jstorm是阿里对storm的java改写版本，阿里团队也对其做了一些优化，使得jstorm更加强大，而且jstorm是完全对storm兼容的，只是有一些细微的差别，但是基本都是内部的差别，对外的API不会有什么区别，所以学习的成本也不会增加太多。
我们对开源的、分布式的、低延迟的、可扩展的、容错的做一下解释:

开源的:感觉这个应当是不用讲的，开源不光意味着代码的开放，同样意味着其具有强大的生命力，因为jstorm不是属于一个团队的，而是大家都可以对其进行改造，生命力源自于此。
分布式的:一台物理机器的CPU、内存、磁盘终究是有限度的，当数据量巨大的情况下，利用多台廉价的机器来协同完成计算成为了上上策，而jstorm也就是用于协同多台机器完成计算的框架，当然这里的计算是指实时计算。其实分布式也是容错性的一部分。
低延迟的:低延迟一方面得益于他是分布式的，计算能力可以通过机器数量的扩展得到提升。传统的计算框架中也有很多分布式的，比如hadoop，但是那是批量处理的模式，对数据进行缓存后再进行一个批处理，比如计算网站的访问量，批处理的方式是一个小时内的数据进行计算，得到访问量。而实时计算的做法有两种，一种是一条一条记录的计算，这样讲处理的延迟就会降低，这也是jstorm采用的方案，另一种便是将批处理的“批”的时间间隔大小减少，比如一个batch时间定为200ms，这样他的处理延迟也会比传统的离线批处理快很多，这是另一款实时处理框架spark streaming的处理方法。
可扩展:通过源代码的阅读，发现jstorm采用的是thrift的server/client的模式，rpc通过thrift定义接口，代码的各个大板块之前都可以使用不同的语言开发，但是提供给我们使用的API的语言貌似只有java，也可以有一些扩展，但是支持的版本比较低。
容错:不同的应用程序对容错性的要求不同，如银行的交易，对容错性较高，网站访问数量的计算，其容错性要求就比较低。总的来数，核心业务的容错性要求较高。jstorm的容错性体现在两方面，一是其为集群的、分布式的系统，而且jstorm是一个无状态的模型，其所有的状态都保存在一个集群的zookeeper中，在机器、进程死掉后，可以通过zookeeper中记录的信息进行重启。二是其具有ack机制，对每一条信息，都可以进行ack告知上

最低0.47元/天解锁文章

啾啾川

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
storm、jstorm 调研系列（一）----jstorm介绍以及与spark的比较，外加一些基础概念

storm、jstorm是干什么的storm是一款开源的、分布式的、低延迟的、可扩展的、容错的实时计算框架，采用clojure和java的混合编程，总体两者的代码总量是55开的，但clojure语言具有很强的表现力，所以storm的核心基本都是使用clojure语言实现的。jstorm是阿里对storm的java改写版本，阿里团队也对其做了一些优化，使得jstorm更加强大，而且jstorm是完全对
复制链接

扫一扫