flume+kafka+storm

最新推荐文章于 2020-09-20 11:23:15 发布

小雄哥

最新推荐文章于 2020-09-20 11:23:15 发布

阅读量792

点赞数 1

分类专栏：高可用架构

本文链接：https://blog.csdn.net/caisini_vc/article/details/78680425

版权

高可用架构专栏收录该内容

28 篇文章 1 订阅

订阅专栏

flume

原理

 
          Flume 是一个可靠的，分布式的，用于采集，聚合，传输海量日志数据的系统。 
         
          Flume 的核心是把数据从数据源收集过来，再送到目的地。为了保证输送一定成功，在送到目的地之前，会先缓存数据，待数据真正到达目的地后，删除自己缓存的数据。 
         
          下面是一些概念. 
         
          Event 
         
          数据传输的基本单位.通常是一行记录. 
         
          Agent 
         
          Flume的运行核心,有三个组件:source,channel,sink. 
         
          Source 
         
          用于接收外部源发来的数据 
         
          Channel 
         
          用于缓存Source发来的event,有fileChannel和memoryChannel两种,分别将event缓存于文件和内存中,当事件被sink掉,才会从channel中删除. 
         
          Sink 
         
          消费event,将数据发送给外部存储系统(如hdfs等),或者发送给下一个agent的source.

搭建

 
          --解压即用 
         
          tar -zxvf apache-flume- 
          1.6 
          . 
          0 
          -bin.tar.gz

配置文件

 
          #测试配置 
         
          a1.sources = r1 
         
          a1.sinks = k1 
         
          a1.channels = c1 
         
          # Describe/configure the source 
         
          a1.sources.r1.type = netcat 
         
          a1.sources.r1.bind = localhost 
         
          a1.sources.r1.port =  
          44444 
         
          # Describe the sink 
         
          a1.sinks.k1.type = logger 
         
          # Use a channel which buffers events in memory 
         
          a1.channels.c1.type = memory 
         
          a1.channels.c1.capacity =  
          1000 
         
          a1.channels.c1.transactionCapacity =  
          100 
         
          # Bind the source and sink to the channel 
         
          a1.sources.r1.channels = c1 
         
          a1.sinks.k1.channel = c1 
         
          #启用代理 
         
          cd /opt/apache-flume- 
          1.6 
          . 
          0 
          -bin/ 
         
          bin/flume-ng agent --conf conf --conf-file /opt/apache-flume- 
          1.6 
          . 
          0 
          -bin/conf/test.conf --name a1 -Dflume.root.logger=INFO,console 
         
          #向端口灌数据测试 
         
          nc localhost  
          4444 
         
          ########################################################################################### 
         
          #dapp1到test1 
         
          #######test1配置 
         
          a1.channels = ch1 
         
          a1.sources = avro-source1 
         
          a1.sinks = s1 
         
          a1.sinks.s1.type = logger 
         
          a1.channels.ch1.type = memory 
         
          a1.channels.ch1.capacity =  
          10000 
         
          a1.channels.ch1.transactionCapacity =  
          100 
         
          a1.sources.avro-source1.channels = ch1 
         
          a1.sources.avro-source1.type = avro 
         
          a1.sources.avro-source1.bind =  
          0.0 
          . 
          0.0 
         
          a1.sources.avro-source1.port =  
          41415 
         
          a1.sources.avro-source1.channel = ch1 
         
          a1.sinks.s1.channel = ch1 
         
          #启动代理 
         
          bin/flume-ng agent --conf conf --conf-file /opt/apache-flume- 
          1.6 
          . 
          0 
          -bin/conf/from_dapp1_test.conf --name a1 -Dflume.root.logger=INFO,console 
         
          dapp1配置 
         
          a1.sources = r1 
         
          a1.sinks = k1 
         
          a1.channels = c2 
         
          a1.sources.r1.type = exec 
         
          a1.sources.r1.command = tail  -F /home/q/www/dapp/logs/access. 
          2015 
          - 
          12 
          - 
          07 
          .log 
         
          a1.sources.r1.shell = /bin/bash -c 
         
          a1.sources.r1.channels = c2 
         
          a1.sources.r1.restart =  
          true 
         
          a1.sources.r1.logStdErr =  
          true 
         
          a1.sources.r1.interceptors = i1 i2 
         
          a1.sources.r1.interceptors.i1.type = host 
         
          a1.sources.r1.interceptors.i1.hostHeader = hostname 
         
          a1.sources.r1.interceptors.i1.useIP =  
          false 
         
          a1.sources.r1.interceptors.i2.type = timestamp 
         
          # Describe the sink 
         
          a1.sinks.k1.channel = c2 
         
          a1.sinks.k1.type = avro 
         
          a1.sinks.k1.hostname = l-pgtest1.s.dev.cn6.yincang.com 
         
          a1.sinks.k1.port =  
          41415 
         
          a1.channels.c2.type = memory 
         
          a1.channels.c2.capacity =  
          10000 
         
          a1.channels.c2.transactionCapacity =  
          100 
         
          ###启动代理 
         
          /export/flume/bin/flume-ng agent --conf conf --conf-file /export/flume/flume-access-to-test1.conf --name a1 
         
          ################################################## 
         
          flume to kafka配置 
         
          a1.channels = ch1 
         
          a1.sources = avro-source1 
         
          a1.sinks = s1 
         
          #a1.sinks.s1.type = logger 
         
          a1.sinks.s1.type = org.apache.flume.sink.kafka.KafkaSink 
         
          a1.sinks.s1.topic = flume_to_kafka_test 
         
          a1.sinks.s1.brokerList =  
          192.168 
          . 
          236.62 
          : 
          9092 
          , 
          192.168 
          . 
          236.63 
          : 
          9092 
          , 
          192.168 
          . 
          236.77 
          : 
          9092 
         
          a1.sinks.s1.requiredAcks =  
          1 
         
          a1.sinks.s1.batchSize =  
          20 
         
          a1.sinks.s1.channel = c1 
         
          a1.channels.ch1.type = memory 
         
          a1.channels.ch1.capacity =  
          10000 
         
          a1.channels.ch1.transactionCapacity =  
          100 
         
          a1.sources.avro-source1.channels = ch1 
         
          a1.sources.avro-source1.type = avro 
         
          a1.sources.avro-source1.bind =  
          0.0 
          . 
          0.0 
         
          a1.sources.avro-source1.port =  
          41415 
         
          a1.sources.avro-source1.channel = ch1 
         
          a1.sinks.s1.channel = ch1 
         
          ##启动 
         
          bin/flume-ng agent --conf conf --conf-file /opt/apache-flume- 
          1.6 
          . 
          0 
          -bin/conf/from_dapp1_to_kafka.conf --name a1 
         
          bin/flume-ng agent --conf conf --conf-file /export/flume1. 
          6 
          /conf_a1/skynet_from_kafka.conf --name a4& 
         
          ###启动带http监控参数，通过host:port/metrics url访问得到监控数据 
         
          bin/flume-ng agent --conf conf --conf-file /export/flume1. 
          6 
          /conf_a1/skynet_from_kafka.conf --name a4 -Dflume.monitoring.type=http -Dflume.monitoring.port= 
          34545 
          &

kafka

原理

 
          Apache Kafka 是一个分布式消息发布订阅系统,易于扩展,提供高吞吐量的发布和订阅,支持多订阅者. 
         
          如下是一些概念. 
         
          1 
          .Broker 
         
          一个broker就是一个kafka服务 
         
          2 
          .Topic 
         
          使用kafka时,我们会将消息分类,一个类别称为一个topic. 
         
          一个topic可以有多个分区,每一个分区位于一个broker上. 
         
          每个topic的多个partitions 都有一个称为leader的server,用于处理分区的读写请求, 
         
          同时有 
          0 
          到多个followers ,用于分区备份,如果leader失败,其中任一followers变为leader. 
         
          3 
          .Producer 
         
          消息生产者,向topics发送数据,可以进行负载均衡,也可以定义分区函数进行分发(通过消息中的关键字,不同关键字的消息分发至不同的分区) 
         
          4 
          .Consumer 
         
          消费者,订阅消息并处理发布的消息,

整体架构

不同的producer 向kafka集群发送消息

不同的consumer 从kafka订阅消费消息

topic

一个topic可以有多个分区,每一个分区位于一个broker上.每一个分区都是一个顺序的、不可变的消息队列，并且可以持续的添加.

同一个partition中的数据是有序的,如果要保证整topic中的消息有序,可以一个topic设置一个partition.kafka会保留所有的消息,直到消息过期.

消费者持有的元数据只是一个偏移量,一般情况下,当消费者处理消息的时候,偏移量会线性增加,实际上偏移量由消费者自己控制,可以回到一个先前的位置重新开始处理.

一个消费者的处理不会影响其他消费者对此Topic的处理.

并行发送,并行处理.

zookeeper搭建

 
     
          用的是kafka自带的zk 
         
 
          1 
          .config/zookeeper.properties 配置 
         
 
          tickTime= 
          2000 
         
 
          dataDir=/home/q/data/zookeeper 
         
 
          clientPort= 
          2182 
         
 
          initLimit= 
          5 
         
 
          syncLimit= 
          2 
         
 
          server. 
          1 
          = 
          192.168 
          . 
          236.62 
          : 
          2889 
          : 
          3889 
         
 
          server. 
          2 
          = 
          192.168 
          . 
          236.63 
          : 
          2889 
          : 
          3889 
         
 
          server. 
          3 
          = 
          192.168 
          . 
          236.77 
          : 
          2889 
          : 
          3886 
         

             
         
 
          2 
          .在dataDir目录下写一个myid,这个id是zookeeper的主机标示，每个主机id不同echo  
          1  
          >myid 
         
 
          3 
          .逐次启动 
          3 
          台机器的zookeeper构成一个集群 
         
 
            
          bin/zookeeper-server-start.sh config/zookeeper.properties & 
         
 
   

kafka搭建

 
          0 
          .搭建zookeeper 
         
          1 
          .解压 
         
          tar -zxvf kafka_2. 
          11 
          - 
          0.8 
          . 
          2.2 
          .tgz 
         
          2 
          .配置config/server.properties 
         
          ----------------------------------------------------------------------------- 
         
          # 每个broker的唯一标识,非负整数 
         
          broker.id= 
          1 
         
          # broker 服务端口 
         
          port= 
          9092 
         
          # broker绑定的服务器地址 
         
          host.name= 
          192.168 
          . 
          236.62 
         
          # zk 连接配置,防止某个zk宕机,可配置多个,以逗号分隔 
         
          zookeeper.connect= 
          192.168 
          . 
          236.62 
          : 
          2182 
          , 
          192.168 
          . 
          236.63 
          : 
          2182 
          , 
          192.168 
          . 
          236.77 
          : 
          2182 
         
          # kafka存放数据的位置 
         
          log.dirs=/home/q/data/kafka-logs 
         
          #日志清理策略 
         
          log.cleanup.policy=delete 
         
          #日志存储的最大时间,超过时间会按日志清理策略清理,消费消息的最长时间 
         
          log.retention.minutes=3days 
         
          #每个topic 每个分区保存数据的上限,超过则会被清理 
         
          log.retention.bytes=- 
          1 
         
          #压缩日志保留时间 
         
          log.cleaner.delete.retention.ms=1day 
         
          ... 
         
          -------------------------------------------------------------------------------- 
         
          其他broker配置类似 
         
          3 
          .启动每个kafka服务 
         
          bin/kafka-server-start.sh config/server.properties & 
         
          4 
          .关闭kafka 
         
          bin/kafka-server-stop.sh config/server.properties & 
         
          5 
          .重启 
         
          先执行 
          3 
          ，再执行 
          4

命令

 
     
          bin/kafka-topics.sh --create --zookeeper  
          192.168 
          . 
          236.62 
          : 
          2182  
          --replication-factor  
          1  
          --partitions  
          3  
          --topic flume_to_kafka_test 
         

             
         
 
          bin/kafka-topics.sh --list --zookeeper localhost: 
          2182 
         

             
         
 
          bin/kafka-console-producer.sh --broker-list l-pgtest1.vc.dev.cn0.yincang.com: 
          9092  
          --topic test 
         

             
         
 
          bin/kafka-console-consumer.sh --zookeeper localhost: 
          2182  
          --topic flume_to_kafka_test --from-beginning 
         

             
         
 
          bin/kafka-topics.sh --describe --zookeeper localhost: 
          2182  
          --topic flume_to_kafka_test 
         
 
          Topic:flume_to_kafka_test    PartitionCount: 
          3     
          ReplicationFactor: 
          1     
          Configs: 
         
 
               
          Topic: flume_to_kafka_test    Partition:  
          0     
          Leader:  
          2     
          Replicas:  
          2     
          Isr:  
          2 
         
 
               
          Topic: flume_to_kafka_test    Partition:  
          1     
          Leader:  
          0     
          Replicas:  
          0     
          Isr:  
          0 
         
 
               
          Topic: flume_to_kafka_test    Partition:  
          2     
          Leader:  
          1     
          Replicas:  
          1     
          Isr:  
          1 
         
 
          PartitionCount 分区数 
         
 
          ReplicationFactor 副本服务数 
         
 
          Partition 分区编号 
         
 
          Leader 分区读写请求服务编号 
         
 
          replicas 给定partition备份的列表,无论活着与否,是否为leader 
         
 
          Isr 同步的副本,副本列表的子集,当前活着并可以被leader联系到 
         

             
         
 
          #删除Topic 
         
 
          bin/kafka-topics.sh --delete --zookeeper  
          192.168 
          . 
          236.62 
          : 
          2182  
          --topic flume_to_kafka_test 
         
 
          bin/kafka-topics.sh --delete --zookeeper  
          192.168 
          . 
          236.62 
          : 
          2182  
          --topic flume_to_kafka_test 
         

             
         
 
          #########调整分区数 
         
 
          bin/kafka-topics.sh --alter --topic qvpas_pv_logs --zookeeper localhost: 
          2181  
          --partitions  
          4 
         
 
          调分区的警告：WARNING: If partitions are increased  
          for  
          a topic that has a key, the partition logic or ordering of the messages will be affected 
         
 
          --看效果 
         
 
          --调整前 
         
 
          [xiao.yang 
          @l 
          -pgtest1.vc.dev.cn0 /opt/kafka_2. 
          11 
          - 
          0.8 
          . 
          2.2 
          ]$ bin/kafka-topics.sh --describe --zookeeper localhost: 
          2182  
          --topic qvpas_pv_log 
         
 
          Topic:qvpas_pv_log    PartitionCount: 
          3     
          ReplicationFactor: 
          3     
          Configs: 
         
 
               
          Topic: qvpas_pv_log    Partition:  
          0     
          Leader:  
          2     
          Replicas:  
          1 
          , 
          2 
          , 
          3     
          Isr:  
          2 
          , 
          3 
          , 
          1 
         
 
               
          Topic: qvpas_pv_log    Partition:  
          1     
          Leader:  
          2     
          Replicas:  
          2 
          , 
          3 
          , 
          1     
          Isr:  
          2 
          , 
          3 
          , 
          1 
         
 
               
          Topic: qvpas_pv_log    Partition:  
          2     
          Leader:  
          3     
          Replicas:  
          3 
          , 
          1 
          , 
          2     
          Isr:  
          3 
          , 
          2 
          , 
          1 
         
 
          --调整后 
         
 
          [xiao.yang 
          @l 
          -pgtest1.vc.dev.cn0 /opt/kafka_2. 
          11 
          - 
          0.8 
          . 
          2.2 
          ]$ bin/kafka-topics.sh --describe --topic qvpas_pvogs --zookeeper localhost: 
          2182 
         
 
          Topic:qvpas_pv_logs    PartitionCount: 
          4     
          ReplicationFactor: 
          1     
          Configs: 
         
 
               
          Topic: qvpas_pv_logs    Partition:  
          0     
          Leader:  
          1     
          Replicas:  
          1     
          Isr:  
          1 
         
 
               
          Topic: qvpas_pv_logs    Partition:  
          1     
          Leader:  
          3     
          Replicas:  
          3     
          Isr:  
          3 
         
 
               
          Topic: qvpas_pv_logs    Partition:  
          2     
          Leader:  
          1     
          Replicas:  
          1     
          Isr:  
          1 
         
 
               
          Topic: qvpas_pv_logs    Partition:  
          3     
          Leader:  
          2     
          Replicas:  
          2     
          Isr:  
          2 
         

             
         
 
          #########调整备份因子 
         
 
          --需要配置一段json，如下 alter_qvpas_pv_logs_replicas.json 文件内容： 
         
 
          { 
          "version" 
          : 
          1 
          , 
         
 
            
          "partitions" 
          :[{ 
          "topic" 
          : 
          "qvpas_pv_logs" 
          , 
          "partition" 
          : 
          0 
          , 
          "replicas" 
          :[ 
          1 
          , 
          2 
          ]}, 
         
 
                          
          { 
          "topic" 
          : 
          "qvpas_pv_logs" 
          , 
          "partition" 
          : 
          1 
          , 
          "replicas" 
          :[ 
          1 
          , 
          2 
          ]}, 
         
 
                          
          { 
          "topic" 
          : 
          "qvpas_pv_logs" 
          , 
          "partition" 
          : 
          2 
          , 
          "replicas" 
          :[ 
          1 
          , 
          2 
          ]}, 
         
 
                          
          { 
          "topic" 
          : 
          "qvpas_pv_logs" 
          , 
          "partition" 
          : 
          3 
          , 
          "replicas" 
          :[ 
          1 
          , 
          2 
          ]}] 
         
 
          } 
         
 
          --执行 
         
 
          bin/kafka-reassign-partitions.sh --zookeeper localhost: 
          2182  
          --reassignment-json-file alter_qvpas_pv_logs_replicas.json --execute 
         
 
          --看效果 
         
 
          --调整前 
         
 
          [root 
          @l 
          -pgtest1.vc.dev.cn0 /opt/kafka_2. 
          11 
          - 
          0.8 
          . 
          2.2 
          ]# bin/kafka-topics.sh --describe --topic qvpas_pv_logs --zookeeper localhost:2182Topic:qvpas_pv_logs   
         
 
            
          PartitionCount: 
          4     
          ReplicationFactor: 
          1     
          Configs: 
         
 
               
          Topic: qvpas_pv_logs    Partition:  
          0     
          Leader:  
          1     
          Replicas:  
          1     
          Isr:  
          1 
         
 
               
          Topic: qvpas_pv_logs    Partition:  
          1     
          Leader:  
          3     
          Replicas:  
          3     
          Isr:  
          3 
         
 
               
          Topic: qvpas_pv_logs    Partition:  
          2     
          Leader:  
          1     
          Replicas:  
          1     
          Isr:  
          1 
         
 
               
          Topic: qvpas_pv_logs    Partition:  
          3     
          Leader:  
          2     
          Replicas:  
          2     
          Isr:  
          2 
         
 
          --调整后 
         
 
          [root 
          @l 
          -pgtest1.vc.dev.cn0 /opt/kafka_2. 
          11 
          - 
          0.8 
          . 
          2.2 
          ]# bin/kafka-topics.sh --describe --topic qvpas_pv_logs --zookeeper localhost:2182Topic:qvpas_pv_logs     
         
 
            
          PartitionCount: 
          4     
          ReplicationFactor: 
          2     
          Configs: 
         
 
               
          Topic: qvpas_pv_logs    Partition:  
          0     
          Leader:  
          1     
          Replicas:  
          1 
          , 
          2     
          Isr:  
          1 
          , 
          2 
         
 
               
          Topic: qvpas_pv_logs    Partition:  
          1     
          Leader:  
          1     
          Replicas:  
          1 
          , 
          2     
          Isr:  
          1 
          , 
          2 
         
 
               
          Topic: qvpas_pv_logs    Partition:  
          2     
          Leader:  
          1     
          Replicas:  
          1 
          , 
          2     
          Isr:  
          1 
          , 
          2 
         
 
               
          Topic: qvpas_pv_logs    Partition:  
          3     
          Leader:  
          2     
          Replicas:  
          1 
          , 
          2     
          Isr:  
          2 
          , 
          1 
         

             
         
 
          --调整kafka topic的队列保留时间为 
          1 
          天，（一种清理kafka队列的方式，可以将时间设置为1s,则1s之前的消息会全部被清除，然后再把时间调为正常值，如 
          3 
          天） 
         
 
          bin/kafka-topics.sh --zookeeper localhost: 
          2181  
          --alter --topic data. 
          import 
          .dujia.accesslog --config retention.ms= 
          86400000 
         

             
         

             
         
 
          -- 
          0.10 
          之后的 
         
 
            
          bin/kafka-configs.sh --zookeeper localhost: 
          2181  
          --alter --entity-type topics --entity-name skynet_topic_td_1 --add-config retention.ms= 
          86400000 
         
 
   

storm

原理

 
          Storm是一个分布式的、高容错的实时计算系统。 
         
          就像Hadoop提供一组通用原语来进行批量处理(batch processing)一样，Storm也提供了一组通用原语来进行实时计算(realtime computation)。 
         
          storm的集群表面上看和hadoop的集群非常像。但是在Hadoop上面你运行的是MapReduce的Job, 而在Storm上面你运行的是Topology。 
         
          一个关键的区别是： 一个MapReduce Job最终会结束， 而一个Topology运永远运行（除非被显式杀掉）。 
         
          控制节点(master node) 
         
          控制节点上面运行一个后台程序： Nimbus， 它的作用类似Hadoop里面的JobTracker。Nimbus负责在集群里面分布代码，分配工作给机器， 并且监控状态。 
         
          工作节点(worker node) 
         
          每一个工作节点上面运行一个叫做Supervisor的后台程序（类似 TaskTracker）。Supervisor会监听分配给它那台机器的工作，根据需要 启动/关闭工作进程。 
         
          Nimbus和Supervisor之间的所有协调工作都是通过一个Zookeeper集群来完成。 
         
          Woker 
         
          Worker是Spout/Bolt中运行具体处理逻辑的进程。 
         
          Executor 
         
          Executor称为物理线程，每个Worker可以包含多个Executor。 
         
          Task 
         
          Task是具体的处理逻辑对象，默认情况下，执行器和任务对应，即一个执行器对应一个任务。

搭建

 
          1 
          .解压 
         
          tar -zxvf apache-storm- 
          0.10 
          . 
          0 
          .tar.gz 
         
          2 
          .配置 conf/storm.yaml 
         
          #zk集群地址配置 
         
          storm.zookeeper.servers: 
         
          -  
          "192.168.236.62" 
         
          -  
          "192.168.236.63" 
         
          -  
          "192.168.236.77" 
         
          #zk端口号,如果是默认的 
          2181 
          ,无须配置 
         
          storm.zookeeper.port:  
          2182 
         
          #storm使用的本地文件系统目录,用于Nimbus和Supervisor进程存储少量状态,如jars,conf等 
         
          storm.local.dir:  
          "/home/q/data/storm" 
         
          #Storm集群Nimbus机器地址，各个Supervisor工作节点需要知道哪个机器是Nimbus，以便下载Topologies的jars、confs等文件 
         
          nimbus.host:  
          "192.168.236.62" 
         
          #对于每个Supervisor工作节点，需要配置该工作节点可以运行的worker数量。每个worker占用一个单独的端口用于接收消息 
         
          supervisor.slots.ports: 
         
          -  
          6700 
         
          -  
          6701 
         
          -  
          6702 
         
          -  
          6703 
         
          3 
          .启动Nimbus后台程序,在Storm主控节点nimbus上运行如下命令 
         
          bin/storm nimbus& 
         
          4 
          .启动supervisor,在各个工作节点上运行如下命令 
         
          bin/storm supervisor& 
         
          5 
          .启动storm ui,在nimbus节点上运行 
         
          启动后可以通过http: 
          //{nimbus host}:8080观察集群的worker资源使用情况、Topologies的运行状态等信息 
         
          bin/storm ui& 
         
          注意:Storm UI必须和Storm Nimbus部署在同一台机器上，否则UI无法正常工作.

Topology

 
          Topology是storm的核心,我们通过编写和部署Topology来处理数据. 
         
          下面是一些概念. 
         
          Stream 
         
          Storm中的核心抽象概念就是流。流是无边界的元组(tuples)的序列。 
         
          通过对stream中tuple序列中每个字段命名来定义stream。 
         
          storm提供一些原语来分布式地、可靠地把一个stream传输进一个新的stream。(spout和bolt) 
         
          Spout 
         
          spout的流的源头。 
         
          比如一个spout可能从kafka的topic读取消息并且把这些消息发射成一个流。 
         
          通常Spout会从外部数据源（队列、数据库等）读取数据，然后封装成Tuple形式，之后发送到Stream中。 
         
          Spout是一个主动的角色，在接口内部有个nextTuple函数，Storm框架会不停的调用该函数。 
         
          Bolt 
         
          bolt可以接收任意多个输入stream，作一些处理，有些bolt可能还会发射一些新的stream。 
         
          一些复杂的流转换，需要多个步骤，从而也就需要多个bolt。 
         
          Bolt可以做任何事情: 运行函数，过滤tuple,做一些聚合，做一些合并以及访问数据库等。 
         
          Bolt是一个被动的角色，其接口中有一个execute(Tuple input)方法，在接收到消息之后会调用此函数，我们可以在此方法中执行自己的处理逻辑。 
         
          StreamGroups 
         
          一个Stream应如何分配数据给Bolt上面的Task. http: 
          //wiki.corp.yincang.com/display/~xiao.yang/stream+groups 
         
          Topology 
         
          spout和bolt所组成一个网络会被打包成topology， topology是storm里面最高一级的抽象（类似 Job）， 我们可以把topology提交给storm的集群来运行.

使用

 
          ##集群部署topology 
         
          bin/storm jar /home/xiao.yang/storm_test.jar kafka.MyTest l-pgtest1.s.dev.cn6.yincang.com 
         
          ##查看topology 
         
          bin/storm list 
         
          ##删除topology 
         
          bin/storm kill MyTest 
         
          ##激活topology 
         
          bin/storm active MyTest 
         
          ##不激活 
         
          bin/storm deactive MyTest

小雄哥

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
flume+kafka+storm

flume原理搭建配置文件kafka原理zookeeper搭建kafka搭建命令示例storm原理搭建Topology使用flume原理Flume 是一个可靠的，分布式的，用于采集，聚合，传输海量日志数据的系统。Flume 的核心是把数据从数据源收集过来，再送到目的地。为了保
复制链接

扫一扫