![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
storm
GoodMorning_可口可乐
拐过转角,风景不一样的美。
展开
-
Java大数据实战 Storm构建实时流处理之例子总结
查看kafka中topic的命令:创建topic:kafak命令通信:生产者:消费者:1.创建一个TopologyBuilder拓扑计算,setSpout方法设置Spout,setBolt方法设置Bolt最后调用createTopology方法返回Storm的Topology对象给Topology方法作为输入参数。2.继承BaseRichSport【发数据】常用的方法:open(Map conf, TopologyContext context, SpoutOutputCollec原创 2021-08-03 21:16:27 · 191 阅读 · 0 评论 -
Java大数据实战 Storm构建实时流处理之词频统计
package com.imooc.bigdata;import org.apache.commons.io.FileUtils;import org.apache.storm.Config;import org.apache.storm.LocalCluster;import org.apache.storm.spout.SpoutOutputCollector;import org.apache.storm.task.OutputCollector;import org.apache.sto原创 2021-08-03 21:07:52 · 372 阅读 · 0 评论 -
Java大数据实战 Storm构建实时流处理之求和案例
package com.imooc.bigdata;import org.apache.storm.Config;import org.apache.storm.LocalCluster;import org.apache.storm.spout.SpoutOutputCollector;import org.apache.storm.task.OutputCollector;import org.apache.storm.task.TopologyContext;import org.apac原创 2021-08-03 21:05:55 · 125 阅读 · 0 评论 -
storm综合例子知识01
交通信息化:有效管理,及时疏导。元宵节: 名俗活动。电信数据采集的方式:GPS: 获取区域的经纬度信息。手机移动网络信令数据样本容量大,覆盖范围广,数据稳定可靠。对信令信息的相应字段进行分析,挖掘,并结合GIS技术实现自定义区域实时人流量的智能化统计分析。信令:通过移动用户发生的通信事件记录来判断该用户所处的位置,可以根据事件发生的区域,对用户的行为轨迹进行定义。1)区域内 inside: 用户处在目标区域范围内。2)区域外 outside: 用户处在目标区域范围外。3)离开 le原创 2021-08-03 20:57:44 · 61 阅读 · 0 评论 -
Java大数据实战 Storm构建实时流处理之RPC
RPC(Remote Procedure Call)远程过程调用,简单的理解是一个节点请求另一个节点提供的服务采用客户机/服务机的方式网络传输:序列化的原创 2021-08-03 20:54:56 · 141 阅读 · 0 评论 -
Java大数据实战 Storm构建实时流处理之storm可靠性
可靠性:nimbus(启动和杀掉worker)进程。worker进程。节点。supervisor进程。ack/fail 确认机制(失败的数据进行保存和重发)。原创 2021-08-03 20:53:12 · 84 阅读 · 0 评论 -
Java大数据实战 Storm构建实时流处理之分组策略
分组策略:一个流定义分组的策略更好的传输到task里面去进行处理。常见的分组策略(shuffle grouping,fields grouping,all grouping)随机分组(Shuffle Grouping)是最常用的流分组方式,它随机地分发元组到Bolt上的任务,这样能保证每个任务得到相同数量的元组。fieldsGrouping,也就是按字段进行分组,相同的指定字段的值都会分到同一个组里面。allGrouping: 将所有的 tuple 复制后分发给所有 bolt task。每个订阅数据流原创 2021-08-03 18:06:20 · 300 阅读 · 0 评论 -
Java大数据实战 Storm构建实时流处理之并行度
并行度:一个worker进程执行的是一个topo的子集。一个worker进程会启动1…n个executor线程来执行一个topo的component.一个运行的topo就是由集群中多台物理机上的多个worker进程组成。executor是一个被worker进程启动的单独线程,每个executor只会运行1个topo的一个component。task是最终运行spout或者bolt代码的最小执行单元。默认: 一个supervisor节点最多启动4个worker进程。 每一个topo默认占用一原创 2021-08-03 18:04:43 · 95 阅读 · 0 评论 -
Java大数据实战 Storm构建实时流处理之Storm的架构与部署
Storm架构:类似于Hadoop的架构,主从(Master/Slave)Nimbus:主集群的主节点,负责任务(task)的指派和分发,资源的分配。Supervisor: 从可以启动多个Worker,具体几个呢?可以通过配置来指定一个Topo可以运行在多个Worker之上,也可以通过配置来指定集群的从节点,(负责干活的),负责执行任务的具体部分启动和停止自己管理的Worker进程无状态,在他们上面的信息(元数据)会存储在ZK中。Worker: 运行具体组件逻辑(Spout/Bolt)的进程。原创 2021-08-03 18:03:31 · 170 阅读 · 0 评论 -
Java大数据实战 Storm构建实时流处理之Storm周边框架使用
Zookeeper:通过zk节点来管理配置信息,同步节点来实现分布式服务的同步。启动:Logstash:日志收集[ELK中的L]Kafka:分布式 流处理 消息(发布|订阅)系统:场景:实时的流处理,容错,横向处理。消息中间件;生产者和消费者例子: 妈妈:生产者 你: 消费者 馒头: 数据流,消息 正常情况下: 生产一个 消费一个 其他情况: 一直生产,你吃到某一个馒头时,你卡住(机器故障),馒头就丢失了。 一直生产,做馒头速度快,你吃来不及,馒头也就丢失了。原创 2021-08-03 18:01:50 · 105 阅读 · 0 评论 -
Java大数据实战 Storm构建实时流处理之Storm编程
Ispout:概述:核心接口(interface),负责将数据发送到topology中去 处理Storm会跟踪Spout发出去的tuple的DAGack/failtuple: message idack/fail/nextTuple是在同一个线程中执行的,所以不用考虑线程安全方面。核心方法:open: 初始化操作。close: 资源释放操作。nextTuple: 发送数据 core apiack: tuple处理成功,storm会反馈给spout一个成功消息。fail: tuple处理原创 2021-08-03 17:58:40 · 258 阅读 · 0 评论 -
Java大数据实战 Storm构建实时流处理之Storm核心概念
Storm核心概念:Topologies拓扑,将整个流程串起来。Streams流,数据流,水流。Spouts产生数据/水的东西。Bolts处理数据/水的东西。Tuple数据/水Storm核心概念理解记忆:Storm核心概念总结:Topology: 计算拓扑,由spout和bolt组成的。Stream: 消息流,抽象概念,没有边界的tuple构成。Tuple: 消息/数据 传递的基本单元。Spout: 消息流的源头,Topology的消息产生者。Bolt: 消息处理单元,可以原创 2021-08-03 17:57:14 · 128 阅读 · 0 评论 -
Java大数据实战 Storm构建实时流处理之初识实时流处理Storm
storm的官网:http://storm.apache.org/storm: 免费|开源|分布式|实时计算系统,能实现高频数据和大规模数据的实时处理。需求:大数据的实时处理。自己来实现实时系统,考虑的因素:1)健壮性。2)扩展性/分布式。3)如何使得数据不丢失,不重复。4)高性能,低延时。Storm开源:2011.9ApacheClojure JavaStorm技术网站:1)官网: http://storm.apache.org/2)GitHub: https://git原创 2021-08-03 17:52:55 · 253 阅读 · 0 评论