自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

paul_wei2008的专栏

互联网技术,java,大数据hadoop,nosql,数据仓库&数据库,消息,缓存,架构

  • 博客(23)
  • 资源 (31)
  • 收藏
  • 关注

转载 Twitter Storm源代码分析之acker工作流程

作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/410/twitter-storm-code-analysis-acker-merchanism/ 概述我们知道storm一个很重要的特性是它能够保证你发出的每条消息都会被完整处理, 完整处理的意思是指:

2014-03-30 12:07:43 753

转载 Twitter Storm源代码分析之ZooKeeper中的目录结构

作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/466/twitter-storm-code-analysis-zookeeper-dirs/ 我们知道Twitter Storm的所有的状态信息都是保存在Zookeeper里面,nimbus通过在zookeeper

2014-03-30 12:05:48 596

转载 Twitter Storm源代码分析之Nimbus/Supervisor本地目录结构

作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/483/twitter-storm-code-analysis-local-dir/ 我们知道,storm集群里面工作机器分为两种一种是nimbus, 一种是supervisor, 他们通过zookeeper来进行交

2014-03-30 12:03:44 585

转载 Twitter Storm源代码分析之Topology的执行过程

Twitter Storm源代码分析之Topology的执行过程发表于 2012 年 01 月 07 日 由 xumingming作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/647/twitter-storm-code-analysis-topol

2014-03-30 11:55:51 806

转载 JVM垃圾回收

理解JAVA垃圾回收的好处是什么?满足求知欲是一方面,编写更好的JAVA应用是另外一方面。作为一家之言,我坚信理解了垃圾回收可以做更好的JAVA程序员。如果一个人对垃圾回收过程感兴趣,那表明他在应用程序开发领域有相当程度的经验。如果一个人在思考如何选择正确的垃圾回收算法,那意味着他对应用程序的特性完全了解。当然,不能一概而论。不过,相信很少人会不认为理解垃圾回收是做一个好的JAVA开发的前提。

2014-03-27 17:09:13 627

转载 Storm应用系列之——Topology部署

本文系原创系列,转载请注明。原帖地址:http://blog.csdn.net/xeseo前言在前面Storm系列之——基本概念一文中,提到过Storm的Spout应该是源源不断的取数据,不能间断。那么,很显然,消息队列系统、分布式内存系统或内存数据库是作为其数据源的很好的选择。本文就如何集成Kafka进行介绍。Kafka的基本介绍:http://blog.csdn

2014-03-26 10:09:08 1304

转载 海量数据去重策略

摘要:随着收集到数据体积的激增,去重无疑成为众多大数据玩家面对的问题之一。重复数据删除在减少存储、降低网络带宽方面有着显著的优势,并对扩展性有所帮助。在存储架构中,删除重复数据的常用方法包括哈希、二进制比较和增量差分;而本文专注的是使用MapReduce和HDFS对数据进行去重。随着存储数据信息量的飞速增长,越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都

2014-03-13 14:46:28 6321

转载 Kafka Producer端自定义消息

这篇文章主要讲kafka producer端的编程,通过一个应用案例来描述kafka在实际应用中的作用。如果你还没有搭建起kafka的开发环境,可以先参考:首先描述一下应用的情况:一个站内的搜索引擎,运营人员想知道某一时段,各类用户对商品的不同需求。通过对这些数据的分析,从而获得更多有价值的市场分析报表。这样的情况,就需要我们对每次的搜索进行记录,当然,不太可能使用数据库区记录这些信息(数

2014-03-12 22:45:36 1663

转载 Twitter Storm: Transactional Topolgoy简介

作者: xumingming文章原始出处: http://xumingming.sinaapp.com/736/twitter-storm-transactional-topolgoy/ 本文翻译自: https://github.com/nathanmarz/storm/wiki/Transactional-topologies概述Storm通过保

2014-03-09 14:28:27 736

转载 Trident State:事务相关设计

Storm可靠性的设计与它的Acker有很大关系,先让我用比较拙劣的语句简单描述下。Storm的tuple,被OutputCollector emit的时候——这个称为archoring(生成新的tuples),需要指定和它相关的之前的tuple,并且要指定executor完之后ack之类的api,这样就能建立一颗可追踪的tuple树。如:[java] view

2014-03-09 10:33:32 910

原创 Storm 原理机制杂记

Storm:Storm是Twitter开源的分布式实时计算系统,Storm通过简单的API使开发者可以可靠地处理无界持续的流数据,进行实时计算,开发语言为Clojure和Java,非JVM语言可以通过stdin/stdout以JSON格式协议与Storm进行通信。Storm的应用场景很多:实时分析、在线机器学习、持续计算、分布式RPC、ETL处理,等等。storm的优点是全内存计算

2014-03-09 08:45:09 6333 1

转载 Storm常见模式—SingleJoinBolt&TimeCacheMap

Topology1.定义两个spout, 分别是genderSpout, ageSpout   Fields, ("id", "gender"), ("id", "age"), 最终join的结果应该是("id", "gender", "age")2. 在设置SingleJoinBolt需要将outFields作为参数, 即告诉bolt, join完的结果应该包含哪些fields 

2014-03-06 14:27:24 1838

转载 Real-Time Trending Topics

Implementing Real-Time Trending Topics With a Distributed Rolling Count Algorithm in StormJAN 18TH, 2013A common pattern in real-time data workflows is performing rolling counts of incoming

2014-03-06 11:53:13 1793

转载 Twitter Storm源代码分析之TimeCacheMap-过期清除

作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/395/twitter-storm-code-analysis-timecahcemap/TimeCacheMap是Twitter Storm里面一个类, Storm使用它来保存那些最近活跃的

2014-03-05 23:08:03 778

转载 Storm架构组件componet

Storm:Storm是Twitter开源的分布式实时计算系统,Storm通过简单的API使开发者可以可靠地处理无界持续的流数据,进行实时计算,开发语言为Clojure和Java,非JVM语言可以通过stdin/stdout以JSON格式协议与Storm进行通信。Storm的应用场景很多:实时分析、在线机器学习、持续计算、分布式RPC、ETL处理,等等。storm的优点是全内存计算,因为内

2014-03-05 14:09:21 1321

转载 Spark Streaming

Spark Streaming:大规模流式数据处理的新贵转载▼Spark Streaming:大规模流式数据处理的新贵发表于2014-01-28 14:02| 1702次阅读| 来源《程序员》| 0 条评论| 作者夏俊鸾,邵赛赛《程序员》杂志2014年2月刊大数据流式计算Spark英特尔摘要:Spa

2014-03-05 11:45:07 1447

转载 Storm在批处理和事务方面的机制分析

1、storm事务性topology的提出对于容错机制,Storm通过一个系统级别的组件acker,结合xor校验机制判断一个msg是否发送成功,进而spout可以重发该msg,保证一个msg在出错的情况下至少被重发一次。但是在一些事务性要求比较高的场景中,需要保障一次只有一次的语义,比如需要精确统计tuple的数量等等。Storm 0.7.0引入了Transactional Topology

2014-03-03 15:19:17 1527

转载 Storm Trident 示例

Storm Trident的核心数据模型是一批一批被处理的“流”,“流”在集群的分区在集群的节点上,对“流”的操作也是并行的在每个分区上进行。Trident有五种对“流”的操作:1.      不需要网络传输的本地批次运算2.      需要网络传输的“重分布”操作,不改变数据的内容3.      聚合操作,网络传输是该操作的一部分4.      “流”分组(grouby)操作

2014-03-03 15:01:41 1463

转载 Storm tuple信息不丢失原因

转自: http://xumingming.sinaapp.com/127/twitter-storm如何保证消息不丢失/---------------------------------本文翻译自: https://github.com/nathanmarz/storm/wiki/Guaranteeing-message-processingstorm保证从spout

2014-03-03 14:54:42 1664

转载 Storm Trident 教程

英文原址:https://github.com/nathanmarz/storm/wiki/Trident-tutorial----------------Trident是在storm基础上,一个以realtime 计算为目标的高度抽象。 它在提供处理大吞吐量数据能力的同时,也提供了低延时分布式查询和有状态流式处理的能力。 如果你对Pig和Cascading这种高级批量处理工具很了解的话,

2014-03-03 14:50:09 663

转载 Storm-批处理

Storm常见模式——批处理Storm对流数据进行实时处理时,一种常见场景是批量一起处理一定数量的tuple元组,而不是每接收一个tuple就立刻处理一个tuple,这样可能是性能的考虑,或者是具体业务的需要。例如,批量查询或者更新数据库,如果每一条tuple生成一条sql执行一次数据库操作,数据量大的时候,效率会比批量处理的低很多,影响系统吞吐量。当然,如果要使用Storm的

2014-03-03 11:38:46 1085

转载 大数据实时处理:百分点实时计算架构和算法

当今时代,数据不再昂贵,但从海量数据中获取价值变得昂贵,而要及时获取价值则更加昂贵,这正是大数据实时计算越来越流行的原因。以百 分点公司为例,在高峰期每秒钟会有近万HTTP请求发送到百分点服务器上,这些请求包含了用户行为和个性化推荐请求。如何从这些数据中快速挖掘用户兴趣偏 好并作出效果不错的推荐呢?这是百分点推荐引擎面临的首要问题。本文将从系统架构和算法两方面全介绍百分点公司在实时计算方面的经验和

2014-03-03 11:15:15 2374

转载 海量数据日志实时分析步骤

1. 实时计算的概念互联网领域的实时计算一般都是针对海量数据进行的,除了像非实时计算的需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。个人理解,互联网行业的实时计算可以分为以下两种应用场景:1)  数据源是实时的不间断的,要求对用户的响应时间也是实时的。主要用于互联网流式数据处理。所谓流式数据是指将数据看作是数据流的形式来处理。数据流则是在时

2014-03-03 10:39:25 4533

btrace1.3.9.zip

btrace1.3.9 jdk1.8 maven 编译构建 http://github.com/btraceio/btrace

2017-10-11

jvisual-btrace离线安装包.zip

jvisualvm btrace 插件离线安装包 1.2.85版本,目前官网不支持在线下载

2017-10-11

pentaho_kettle_solutions

pentaho_kettle_solutions bi olap etl 引擎

2014-06-22

HBase The Definitive Guide

HBase The Definitive Guide 权威指南

2014-06-22

HBase Administration Cookbook

HBase Administration Cookbook packet

2014-06-22

TheDefinitiveGuideToTerracottaCluster

TheDefinitiveGuideToTerracottaCluster terracotta 缓存

2014-06-22

programming web services soap

programming web services soap

2014-06-22

NoSQL-NoSQL误用和常见陷阱分析

NoSQL-NoSQL误用和常见陷阱分析

2014-06-22

java性能调优

java performance 性能 优化 调优

2014-06-22

ApacheMaven3Cookbook

maven cookbook 学习指南,仔细阅读一本够了

2014-06-22

hadoop 实战 中文版

hadoop 实战 中文版深入浅出,陆嘉恒

2013-09-25

hadoop 开发指南 第三版

hadoop 开发指南 最新版本 第三版

2013-09-25

hadoop window 安装教程

hadoop window 手把手 安装教程

2013-09-25

struts mvc 个人总结

struts mvc 机制原理 深入 demo 实例说明

2013-09-25

Spring Security3 安全 个人总结

Spring Security3 拦截 过滤器 安全,框架原理入门

2013-09-25

Hibernate annotation 注解个人笔记

Hibernate annotation 个人笔记

2013-09-25

spring mvc 框架

spring mvc demo 入门实例,手把手个人笔记

2013-09-25

Spring 个人小结

spring 个人小结 ,工厂模式 源码解析 ,AOP ,IOC 隔离事务

2013-09-25

最全正则表达式教程、最好正则表达式教程.doc

最全正则表达式教程、最好正则表达式教程.doc

2010-05-11

J2SE6.0_CN.chm

J2SE6.0_CN.chm chm JDK6 中文 API

2010-05-11

CSSFilter2

CSSFilter2.0_DOC_CN.chm css 详细 讲解 基础

2010-05-11

PostgreSQL8

PostgreSQL 8 SQL chm 中文

2010-05-11

SQL语言参考资料.chm

SQL语言参考资料.chm 资料 chm 大全 经典 常用 中文

2010-05-11

Log4j1.2.chm

Log4j api chm java 常用

2010-05-11

正则表达式系统教程.CHM

正则表达式系统教程.CHM java chm 正则

2010-05-11

sql语句大全 MS-SQL

sql Sqlserver 语句大全 精华

2010-05-11

The Java Developers Almanac 1.4.chm

The Java Developers Almanac 1.4.chm java 年鉴

2010-05-11

Hibernate3.2.chm

Hibernate 中文 帮助手册 Hibernate3.2.chm

2010-05-11

jQueryDocXML2CHM-090223.chm

jQueryDocXML2CHM-090223.chm jquery API 中文 chm

2010-05-11

《精通正则表达式》(第3版).chm

《精通正则表达式》(第3版).chm 第三版 ,正则表达式

2010-05-11

正则表达式eclispe插件

eclipse插件 正则表达式.可以各种模式匹配,便于开发

2009-03-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除