Storm
Storm是Twitter开源的分布式实时大数据处理框架,最早开源于github,从0.9.1版本之后,归于Apache社区,被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等,大数据实时处理解决方案(流计算)的应用日趋广泛,目前已是分布式技术领域最新爆发点,而Storm更是流计算技术中的佼佼者和主流。
Jeremy_Lee123
AI Everywhere!
展开
-
流式计算系统之Storm详解
本章目录1、离线计算是什么?2、流式计算是什么3、离线计算与实时计算的区别4、Storm是什么?5、Storm与Hadoop的区别6、Storm应用场景及行业案例6.1、运用场景6.2、典型案列7、Storm核心组件(重要)8、Storm编程模型(重要)9、流式计算一般架构图(重要)1、离线计算是什么? 离线计算:批量获取数据、批...原创 2019-08-02 01:35:31 · 628 阅读 · 0 评论 -
Storm之架构详解及基本概念
一、Storm的简介官网地址:http://storm.apache.org/2013年,Storm进入Apache社区进行孵化, 2014年9月,晋级成为Apache顶级项目。Storm是一个免费开源、分布式、高容错的实时计算系统。Storm令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和E...原创 2019-10-15 00:12:38 · 1966 阅读 · 0 评论 -
Storm之分布式搭建
一、Storm的下载官网下载地址:http://storm.apache.org/downloads.html这里下载最新的版本storm1.2.2,进入之后选择一个镜像下载二、Storm伪分布式安装(默认自带zookeeper)1.环境准备JDK 1.7+ 验证: java -versionPython 2.6.6+ 验证:python -...原创 2019-10-15 00:17:44 · 512 阅读 · 0 评论 -
Storm之分组策略
Storm由数源泉spout到bolt时,可以选择分组策略,实现对spout发出的数据的分发。对多个并行度的时候有用。一、Storm的数据分发策略1. Shuffle Grouping随机分组,随机派发stream里面的tuple,保证每个bolt task接收到的tuple数目大致相同。轮询,平均分配2. Fields Grouping(相同fields去分发到同一个Bolt)按...原创 2019-10-15 00:21:36 · 739 阅读 · 0 评论 -
Storm之并发机制
为了提高Storm的并行能力,通常需要设置并行。一、Storm并行方式(3种)1.1、Worker – 进程// 设置Worker进程数Config.setNumWorkers(int workers)一个Topology拓扑会包含一个或多个Worker(每个Worker进程只能从属于一个特定的Topology) 这些Worker进程会并行跑在集群中不同的服务器上,即一个...原创 2019-10-15 00:24:22 · 480 阅读 · 0 评论 -
Storm之集群详解及容错机制
一、Storm集群架构结合Storm集群架构图:我们的程序提交流程如下:其中各个组件的作用如下:Nimbus资源调度 任务分配 接收jar包Supervisor接收nimbus分配的任务 启动、停止自己管理的worker进程(当前supervisor上worker数量由配置文件设定)Worker运行具体处理运算组件的进程(每个Worker对应执行一个T...原创 2019-10-15 00:31:10 · 663 阅读 · 2 评论 -
Storm之同步服务DRPC
一、概述DRPC (Distributed RPC --remote procedure call分布式远程过程调用)是一种同步服务实现的机制,在Storm中客户端提交数据请求之后,立刻取得计算结果并返回给客户端。同时充分利用Storm的计算能力实现高密度的并行实时计算。二、架构DRPC 是通过一个 DRPC 服务端(DRPC server)来实现分布式 RPC 功能的。 DRPC...原创 2019-10-15 00:32:34 · 665 阅读 · 0 评论 -
Storm之整合kafka的API编程与任务提交
一、Flume+Kafka+Storm架构设计采集层:实现日志收集,使用负载均衡策略 消息队列:作用是解耦及不同速度系统缓冲 实时处理单元:用Storm来进行数据处理,最终数据流入DB中 展示单元:数据可视化,使用WEB框架展示二、Flume+Kafka+Storm架构设计2.1、配置并启动flume# ./conf/ 目录下创建: fk.confa1....原创 2019-10-15 00:37:05 · 598 阅读 · 0 评论 -
Storm之事务和项目案例
一、Storm事务1、事务性拓扑(Transactional Topologies) 2、保证消息(tuple)被且仅被处理一次官网:http://storm.apache.org/releases/0.9.6/Transactional-topologies.html三种事务:1、普通事务 2、Partitioned Transaction - 分区事务 3、Opaque T...原创 2019-10-15 00:39:30 · 654 阅读 · 0 评论