guisu,程序人生。 逆水行舟,不进则退。

能干的人解决问题。智慧的人绕开问题(A clever person solves a problem. A wise person avoids it)...

排序:
默认
按更新时间
按访问量

深入解析:分布式系统的事务处理经典问题及模型(转载分享)

摘要:分布式系统需要在数据完整、一致性和性能间做平衡。本文系统介绍了处理分布式数据一致性的技术模型,如:Master-Slave,Master-Master,2PC/3PC,经典的将军问题,Paxos,以及Dynamo的NRW和VectorClock的模型。 编者按:数据服务的高可用是所有企业...

2014-01-21 15:22:32

阅读数:10787

评论数:3

Storm集群安装详解

本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”的形式给出。 3.1 Storm集群组件 Storm集群中包含两类节点:主控节点(Master Node)和工作节点(Work Node)。...

2013-07-25 19:58:05

阅读数:21655

评论数:1

6个用于大数据分析的最好工具

大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频和图像档案,及大...

2013-07-01 00:09:12

阅读数:16703

评论数:1

用Redis bitmap统计活跃用户、留存

Spool的开发者博客,描述了Spool利用Redis的bitmaps相关的操作,进行网站活跃用户统计工作。       原文:http://blog.getspool.com/2011/11/29/fast-easy-realtime-metrics-using-redis-bitmaps/ ...

2013-06-27 21:05:38

阅读数:15440

评论数:1

使用Storm实现实时大数据分析

摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战。Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Storm进行实时大数据分析。CSDN在此编译、整理。 简单和明了,Storm让大数据分析变得轻松加...

2012-12-31 10:12:12

阅读数:71214

评论数:11

大数据计算:如何仅用1.5KB内存为十亿对象计数

Big Data Counting: How To Count A Billion Distinct Objects Using Only 1.5K This is a guest post by Matt Abrams (@abramsm), from Clearspring, dis...

2012-12-25 18:58:22

阅读数:20263

评论数:3

Trie树:应用于统计和排序

1. 什么是trie树   1.Trie树 (特例结构树)         Trie树,又称单词查找树、字典树,是一种树形结构,是一种哈希树的变种,是一种用于快速检索的多叉树结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点...

2012-10-31 17:08:31

阅读数:35848

评论数:9

海量数据处理算法—Bit-Map

1. Bit Map算法简介         来自于《编程珠玑》。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。 2、 Bit Map的基本思想         我们先...

2012-08-21 16:14:19

阅读数:39623

评论数:29

海量数据处理算法—Bloom Filter

1. Bloom-Filter算法简介         Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。        Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断...

2012-08-14 18:40:48

阅读数:68687

评论数:13

海量数据处理 算法总结

前面我们说海量数据处理提到,从算法的角度去考虑处理海量数据。 1. Bloom Filter 【Bloom Filter】 Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合...

2012-08-14 16:52:19

阅读数:21388

评论数:7

海量数据处理

海量数据处理是基于海量数据上的存储、处理、操作。        所谓海量,就是数据量很大,可能是TB级别甚至是PB级别,导致无法一次性载入内存或者无法在较短时间内处理完成。面对海量数据,我们想到的最简单方法即是分治法,即分开处理,大而化小,小而治之。我们也可以想到集群分布式处理。 ...

2012-08-11 11:55:27

阅读数:6255

评论数:0

大数据下的数据分析平台架构

摘要:Admaster数据挖掘总监 随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求。 随着互联网、移动互联网和物联网的...

2011-12-27 16:18:31

阅读数:4009

评论数:0

提示
确定要删除当前文章?
取消 删除