storm
大数据技术之路---花火
这个作者很懒,什么都没留下…
展开
-
storm 安装教程
搭建storm集群的步骤: 1、设置zookeeper集群 2、安装依赖到所有nimbus和worker节点 3、下载并解压storm发布版本到所有nimbus和worker节点 4、配置storm.yaml 5、启动相关后台进程1 、配置zookeeper集群 略2 、安装依赖到nimbus和worker节点 storm需要依赖的是: 1、Java 6 2、Py原创 2017-08-27 21:54:35 · 1070 阅读 · 0 评论 -
storm教程(一):storm基本概念和集群架构
一、storm 基本概念 对比Hadoop的批处理,Storm是个实时的、分布式以及具备高容错的计算系统。同Hadoop一样Storm也可以处理大批量的数据,然而Storm在保证高可靠性的前提下还可以让处理进行的更加实时;也就是说,所有的信息都会被处理。Storm同样还具备容错和分布计算这些特性,这就让Storm可以扩展到不同的机器上进行大批量的数据处理。他同样还有以下的这些特性:原创 2017-08-27 22:08:33 · 1914 阅读 · 0 评论 -
storm教程(二):Storm Topology组件和Storm数据源和输出选择
Storm Topology组件前面的章节已经提到过,Storm集群中的任务称之为Topology。 对比Hadoop中的MapReduce job,mapper用于从数据源中获取数据,经过简单处理,以一定的格式传递给reducer,reducer负责后续处理。 类似的,Topology任务也要从数据源中获取数据,然后进行后续处理。在Topology中从外部数据源获取数据的组件,称之为Spout原创 2017-08-27 22:14:20 · 4245 阅读 · 0 评论 -
storm教程(三):用Java开发storm
1、操作模式开始之前,有必要了解一下Storm的操作模式。有下面两种方式。 本地模式 在本地模式下,Storm拓扑结构运行在本地计算机的单一JVM进程上。这个模式用于开发、测试以及调试,因为这是观察所有组件如何协同工作的最简单方法。在这种模式下,我们可以调整参数,观察我们的拓扑结构如何在不同的Storm配置环境下运行。要在本地模式下运行,我们要下载Storm开发依赖,以便用来开发并测试我们的拓扑原创 2017-08-27 22:47:45 · 16884 阅读 · 1 评论 -
storm教程(四):storm策略和storm并行度
storm策略storm里面有6种类型的stream grouping: 1.Shuffle Grouping: 随机分组, 随机派发stream里面的tuple, 保证每个bolt接收到的tuple数目相同。轮询,平均分配。 2. Fields Grouping:按字段分组, 比如按userid来分组, 具有同样userid的tuple会被分到相同的Bolts, 而不同的userid则会被分配原创 2017-08-27 22:58:10 · 4938 阅读 · 0 评论 -
storm教程(五):storm消息的可靠性保障与acker机制、Thrift client 集群监控
消息的可靠性保障与acker机制Storm 能够保证每一个由 Spout 发送的消息都能够得到完整地处理。本文详细解释了 Storm 如何实现这种保障机制,以及作为用户如何使用好 Storm 的可靠性机制。 消息的“完整性处理”是什么意思 一个从 spout 中发送出的 tuple 会产生上千个基于它创建的 tuples。例如,有这样一个 word-count 拓扑:TopologyBuilde原创 2017-08-27 23:19:10 · 1688 阅读 · 1 评论 -
storm教程(六):Storm 和kafka的集成
我们知道storm的作用主要是进行流式计算,对于源源不断的均匀数据流流入处理是非常有效的,而现实生活中大部分场景并不是均匀的数据流,而是时而多时而少的数据流入,这种情况下显然用批量处理是不合适的,如果使用storm做实时计算的话可能因为数据拥堵而导致服务器挂掉,应对这种情况,使用kafka作为消息队列是非常合适的选择,kafka可以将不均匀的数据转换成均匀的消息流,从而和storm比较完善的结合,这原创 2017-08-27 23:51:15 · 2544 阅读 · 0 评论