storm
end
这个作者很懒,什么都没留下…
展开
-
基于storm的实时数据处理方案
1 文档说明 该文档描述的是以storm为主体的实时处理架构,该架构包括了数据收集部分,实时处理部分,及数据落地部分。 关于不同部分的技术选型与业务需求及个人对相关技术的熟悉度有关,会一一进行分析。 该架构是本人所掌握的一种架构,可能会与其他架构有相似的部分,个人会一一解释对其的理解。 这个文章写的很详细,相信对大家在实时处理整体理解上会有帮助的。 2 实时原创 2016-04-16 18:15:20 · 9024 阅读 · 0 评论 -
使用Storm实现实时大数据分析
简单和明了,Storm让大数据分析变得轻松加愉快。 当今世界,公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获的任何类型数据,网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。考虑到数据的生成量,实时处理成为了许多机构需要面对的首要挑战。我们经常用的一个非常有效的开源实时计算工具就是Storm —— Twitter开发,通常被比作“实时的Hadoop”。原创 2016-08-03 16:47:11 · 5586 阅读 · 0 评论 -
Storm学习----概念介绍
Storm 在集群上运行一个 Topology的时刻,主要通过以下3个实体来完成Topology的执行工作 1 Worker 2 Executor 3 Task 一个Worker 进程执行的是一个topology的子集,这里我们必须强调:不会存在一个worker 为多个topology服务, 一个worker进程会启动一个或则多个executor原创 2016-08-03 17:45:36 · 610 阅读 · 0 评论 -
Storm在Zookeeper中的目录结构
源代码是 backtype.storm.cluster /-{storm-zk-root} -- storm在zookeeper上的根 | 目录 | |-/assignments -- topology的任务分配信息 | | | |-/{topology-id}原创 2016-08-05 18:34:05 · 1597 阅读 · 0 评论 -
Storm学习----Metrics
storm从0.9.0开始,增加了指标统计框架,用来收集应用程序的特定指标,并将其输出到外部系统。 本文中采用的监听类是LoggingMetricsConsumer,统计指标值将输出到metric.log日志文件中。 当然也可以自定义监听类,只需要实现IMetricsConsumer接口即可,这些类可以在代码里注册(registerMetricsConsumer),也可以在 storm.yam原创 2016-08-08 14:02:18 · 1833 阅读 · 0 评论 -
Storm学习----ACK机制
对于Storm,有一个相对比较重要的概念就是 "Guarantee no data loss" -- 可靠性 很明显,要做到这个特性,必须要tracker 每一个data的去向和结果,Storm是如何做到的? 那就是我们接下来要说的 Acker 机制,先概括下Acker所参与的工作流程 1 Spout 创建一个新的Tuple时候,会发射一个消息通知acker去跟踪; 2 B原创 2016-08-08 15:05:31 · 2433 阅读 · 0 评论 -
Storm与Spark Streaming横向对比
Storm风暴和Spark Streaming火花流都是分布式流处理的开源框架。这里将它们进行比较并指出它们的重要的区别。 处理模型,延迟 虽然这两个框架都提供可扩展性和容错性,它们根本的区别在于他们的处理模型。而Storm处理的是每次传入的一个事件,而Spark Streaming是处理某个时间段窗口内的事件流。因此,Storm处理一个事件可以达到秒内的延迟,而Spark Streami原创 2016-09-08 11:08:54 · 926 阅读 · 0 评论