2014年03月_大林-Java

12月 11月 10月 07月 06月 05月 04月 03月 02月

转载 Twitter Storm源代码分析之acker工作流程

2014-03-30 12:07:43 753

转载 Twitter Storm源代码分析之ZooKeeper中的目录结构

2014-03-30 12:05:48 596

转载 Twitter Storm源代码分析之Nimbus/Supervisor本地目录结构

2014-03-30 12:03:44 585

转载 Twitter Storm源代码分析之Topology的执行过程

2014-03-30 11:55:51 806

转载 JVM垃圾回收

理解JAVA垃圾回收的好处是什么？满足求知欲是一方面，编写更好的JAVA应用是另外一方面。作为一家之言，我坚信理解了垃圾回收可以做更好的JAVA程序员。如果一个人对垃圾回收过程感兴趣，那表明他在应用程序开发领域有相当程度的经验。如果一个人在思考如何选择正确的垃圾回收算法，那意味着他对应用程序的特性完全了解。当然，不能一概而论。不过，相信很少人会不认为理解垃圾回收是做一个好的JAVA开发的前提。

2014-03-27 17:09:13 627

转载 Storm应用系列之——Topology部署

本文系原创系列，转载请注明。原帖地址：http://blog.csdn.net/xeseo前言在前面Storm系列之——基本概念一文中，提到过Storm的Spout应该是源源不断的取数据，不能间断。那么，很显然，消息队列系统、分布式内存系统或内存数据库是作为其数据源的很好的选择。本文就如何集成Kafka进行介绍。Kafka的基本介绍：http://blog.csdn

2014-03-26 10:09:08 1304

转载海量数据去重策略

摘要：随着收集到数据体积的激增，去重无疑成为众多大数据玩家面对的问题之一。重复数据删除在减少存储、降低网络带宽方面有着显著的优势，并对扩展性有所帮助。在存储架构中，删除重复数据的常用方法包括哈希、二进制比较和增量差分；而本文专注的是使用MapReduce和HDFS对数据进行去重。随着存储数据信息量的飞速增长，越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都

2014-03-13 14:46:28 6321

转载 Kafka Producer端自定义消息

这篇文章主要讲kafka producer端的编程，通过一个应用案例来描述kafka在实际应用中的作用。如果你还没有搭建起kafka的开发环境，可以先参考：首先描述一下应用的情况：一个站内的搜索引擎，运营人员想知道某一时段，各类用户对商品的不同需求。通过对这些数据的分析，从而获得更多有价值的市场分析报表。这样的情况，就需要我们对每次的搜索进行记录，当然，不太可能使用数据库区记录这些信息（数

2014-03-12 22:45:36 1663

转载 Twitter Storm: Transactional Topolgoy简介

作者: xumingming文章原始出处: http://xumingming.sinaapp.com/736/twitter-storm-transactional-topolgoy/ 本文翻译自: https://github.com/nathanmarz/storm/wiki/Transactional-topologies概述Storm通过保

2014-03-09 14:28:27 736

转载 Trident State:事务相关设计

Storm可靠性的设计与它的Acker有很大关系，先让我用比较拙劣的语句简单描述下。Storm的tuple，被OutputCollector emit的时候——这个称为archoring(生成新的tuples)，需要指定和它相关的之前的tuple，并且要指定executor完之后ack之类的api，这样就能建立一颗可追踪的tuple树。如：[java] view

2014-03-09 10:33:32 910

原创 Storm 原理机制杂记

Storm：Storm是Twitter开源的分布式实时计算系统，Storm通过简单的API使开发者可以可靠地处理无界持续的流数据，进行实时计算，开发语言为Clojure和Java，非JVM语言可以通过stdin/stdout以JSON格式协议与Storm进行通信。Storm的应用场景很多：实时分析、在线机器学习、持续计算、分布式RPC、ETL处理，等等。storm的优点是全内存计算

2014-03-09 08:45:09 6333 1

转载 Storm常见模式—SingleJoinBolt&TimeCacheMap

Topology1.定义两个spout, 分别是genderSpout, ageSpout Fields, ("id", "gender"), ("id", "age"), 最终join的结果应该是("id", "gender", "age")2. 在设置SingleJoinBolt需要将outFields作为参数, 即告诉bolt, join完的结果应该包含哪些fields

2014-03-06 14:27:24 1838

转载 Real-Time Trending Topics

Implementing Real-Time Trending Topics With a Distributed Rolling Count Algorithm in StormJAN 18TH, 2013A common pattern in real-time data workflows is performing rolling counts of incoming

2014-03-06 11:53:13 1793

转载 Twitter Storm源代码分析之TimeCacheMap-过期清除

2014-03-05 23:08:03 778

转载 Storm架构组件componet

2014-03-05 14:09:21 1321

转载 Spark Streaming

Spark Streaming：大规模流式数据处理的新贵转载▼Spark Streaming：大规模流式数据处理的新贵发表于2014-01-28 14:02| 1702次阅读| 来源《程序员》| 0 条评论| 作者夏俊鸾，邵赛赛《程序员》杂志2014年2月刊大数据流式计算Spark英特尔摘要：Spa

2014-03-05 11:45:07 1447

转载 Storm在批处理和事务方面的机制分析

1、storm事务性topology的提出对于容错机制，Storm通过一个系统级别的组件acker，结合xor校验机制判断一个msg是否发送成功，进而spout可以重发该msg，保证一个msg在出错的情况下至少被重发一次。但是在一些事务性要求比较高的场景中，需要保障一次只有一次的语义，比如需要精确统计tuple的数量等等。Storm 0.7.0引入了Transactional Topology

2014-03-03 15:19:17 1527

转载 Storm Trident 示例

Storm Trident的核心数据模型是一批一批被处理的“流”，“流”在集群的分区在集群的节点上，对“流”的操作也是并行的在每个分区上进行。Trident有五种对“流”的操作：1. 不需要网络传输的本地批次运算2. 需要网络传输的“重分布”操作，不改变数据的内容3. 聚合操作，网络传输是该操作的一部分4. “流”分组（grouby）操作

2014-03-03 15:01:41 1463

转载 Storm tuple信息不丢失原因

转自： http://xumingming.sinaapp.com/127/twitter-storm如何保证消息不丢失/---------------------------------本文翻译自： https://github.com/nathanmarz/storm/wiki/Guaranteeing-message-processingstorm保证从spout

2014-03-03 14:54:42 1664

转载 Storm Trident 教程

英文原址：https://github.com/nathanmarz/storm/wiki/Trident-tutorial----------------Trident是在storm基础上，一个以realtime 计算为目标的高度抽象。它在提供处理大吞吐量数据能力的同时，也提供了低延时分布式查询和有状态流式处理的能力。如果你对Pig和Cascading这种高级批量处理工具很了解的话，

2014-03-03 14:50:09 663

转载 Storm-批处理

Storm常见模式——批处理Storm对流数据进行实时处理时，一种常见场景是批量一起处理一定数量的tuple元组，而不是每接收一个tuple就立刻处理一个tuple，这样可能是性能的考虑，或者是具体业务的需要。例如，批量查询或者更新数据库，如果每一条tuple生成一条sql执行一次数据库操作，数据量大的时候，效率会比批量处理的低很多，影响系统吞吐量。当然，如果要使用Storm的

2014-03-03 11:38:46 1085

转载大数据实时处理：百分点实时计算架构和算法

当今时代，数据不再昂贵，但从海量数据中获取价值变得昂贵，而要及时获取价值则更加昂贵，这正是大数据实时计算越来越流行的原因。以百分点公司为例，在高峰期每秒钟会有近万HTTP请求发送到百分点服务器上，这些请求包含了用户行为和个性化推荐请求。如何从这些数据中快速挖掘用户兴趣偏好并作出效果不错的推荐呢？这是百分点推荐引擎面临的首要问题。本文将从系统架构和算法两方面全介绍百分点公司在实时计算方面的经验和

2014-03-03 11:15:15 2374

转载海量数据日志实时分析步骤

1. 实时计算的概念互联网领域的实时计算一般都是针对海量数据进行的，除了像非实时计算的需求（如计算结果准确）以外，实时计算最重要的一个需求是能够实时响应计算结果，一般要求为秒级。个人理解，互联网行业的实时计算可以分为以下两种应用场景：1）数据源是实时的不间断的，要求对用户的响应时间也是实时的。主要用于互联网流式数据处理。所谓流式数据是指将数据看作是数据流的形式来处理。数据流则是在时

2014-03-03 10:39:25 4533