
海量存储和算法
zhangxinrun_业余erlang
这个作者很懒,什么都没留下…
展开
-
54chen解读NoSQL代表Dynamo
转载:http://www.54chen.com/_linux_/54chen-s-nosql.htmlNoSQL在过去的一年里,逐渐已经成为了家喻户晓的东西,我(54chen)自从去年开始人人网的NoSQL系统Nuclear的研发以来,一直看着NoSQL越来越热,越来越引来大家的围观。受infoQ霍师傅之托,特作此文,一来作过去一年的总结,二来希望以平白的话语对NoSQL系统在国内的转载 2011-12-18 15:28:34 · 1134 阅读 · 0 评论 -
浅谈云计算与数据中心计算
转载:http://www.programmer.com.cn/9767/云计算概念发端于Google和Amazon等超大规模的互联网公司,随着这些公司业务的成功,作为其支撑技术的云计算也得到了业界的高度认可和广泛传播。时至今日,云计算已被普遍认为是IT产业发展的新阶段,从而被赋予了很多产业和产品层面的意义。由于意义多重,各种概念纷繁复杂,众多公司和从业人员的眼中都有自己的一朵云,转载 2012-02-02 14:34:59 · 1112 阅读 · 0 评论 -
一致性Hash算法(KetamaHash)的c#实现
转载:http://blog.csdn.net/daizhj/article/details/5834991 牛人最近在研究"一致性HASH算法"(Consistent Hashing),用于解决memcached集群中当服务器出现增减变动时对散列值的影响。后来 在JAVAEYE上的一篇文章中,找到了其中的 KetamaHash 算法的JAVA实现(一种基于虚拟结点的HAS转载 2012-02-17 11:43:36 · 986 阅读 · 0 评论 -
UnQL:CouchDB与SQLite推出的NoSQL查询语言
couchDB与SQLite的开发者们共同制定了一套用于NoSQL的查询语言规范,命名为UnQL(发音同“uncle”),与关系型数据库的SQL语言规范类似,UnQL主要被定位在规范对文档型NoSQL数据库的查询上。实际上 CouchDB 作者 Damien Katz 与 SQLite 作者 Richard Hipp,一直在进行支持文档数据库查询的统一语言的开发。Katz 指出“我们意识到,相转载 2012-02-27 10:55:22 · 1429 阅读 · 0 评论 -
Cassandra VS. HBase
转载:http://hi.baidu.com/qnuth/blog/item/8720811ff79bca11314e15da.html由于HBase和Cassandra的数据模型比较接近,所以这里就不再比较两者之间数据模型的异同了。接下来主要比较双方在数据一致性、多拷贝复制的特性。HBaseHBase保证写入的一致性。当一份数据被要求复制N份的时候,只有N份数据都被真正复制到N台转载 2012-02-27 15:54:12 · 3436 阅读 · 0 评论 -
redis总结
转载:http://blog.sina.com.cn/s/blog_4a1f59bf0100teiz.htmlredis高可用 (来自于:http://www.iteye.com/topic/1108383)因为redis不仅作为缓存使用,而且也是resque执行异步和定时任务的消息队列,因此对于可用性的要求就比较高,一旦挂掉,所有后台任务就会全部停止,严重影响网站的功能和体验。转载 2012-03-01 17:40:28 · 2289 阅读 · 0 评论 -
Redis 通讯协议规范
转载:http://blog.sina.com.cn/s/blog_6b3795450100vsir.htmlRedis 通讯协议规范redis是一个key-value形式的基于内存的数据库当安装完程序后我们知道可以用redis-cli连接redis-server进行通讯,进行各种操作。那么如今我们用的高级语言 如:C、Java、Python、C#等 如何来发送命令转载 2012-03-06 16:56:42 · 10874 阅读 · 0 评论 -
开源搜索项目-倒排索引代码解析(一)
转载:http://www.mingyuanfeng.co.cc/search/label/%E5%80%92%E6%8E%92%E7%B4%A2%E5%BC%95%EF%BC%8C%E5%BC%80%E6%BA%90%EF%BC%8C%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E搜索引擎的底层索引使用一种叫“倒排索引”(inverted index)的索转载 2012-03-31 16:08:55 · 6564 阅读 · 0 评论 -
LSM-tree 一种高效的索引数据结构
转载:http://bofang.iteye.com/blog/1676698论文 The Log-Structure Merge-Tree(LSM-tree)(http://www.google.com.my/url?sa=t&rct=j&q=&esrc=s&source=web&cd=4&cad=rja&ved=0CDoQFjAD&url=http%3A%2F%2Fcite转载 2012-11-13 14:11:48 · 6379 阅读 · 0 评论 -
探讨:分布式系统与集群的区别
转载:http://stor-age.zdnet.com.cn/stor-age/2011/0713/2046502.shtml简单说,分布式是以缩短单个任务的执行时间来提升效率的,而集群则是通过提高单位时间内执行的任务数来提升效率。例如:如果一个任务由10个子任务组成,每个子任务单独执行需1小时,则在一台服务器上执行改任务需10小时。采用分布式方案,提供10台转载 2012-01-23 21:58:33 · 1037 阅读 · 0 评论 -
程序员面试、算法研究、编程艺术、红黑树4大系列集锦与总结
转载:http://blog.csdn.net/v_july_v/article/details/6543438程序员面试、算法研究、编程艺术、红黑树4大经典原创系列集锦与总结作者:July--结构之法算法之道blog之博主。时间:2010年10月-2011年6月。出处:http://blog.csdn.net/v_JULY_v 。声明:版权所有,侵犯必究。转载 2011-12-15 16:18:43 · 2051 阅读 · 0 评论 -
哈希分布与一致性哈希算法简介
转载:http://www.cnblogs.com/liunx/archive/2010/03/24/1693925.html前言在我们的日常web应用开发当中memcached可以算作是当今的标准开发配置了。相信memcache的基本原理大家也都了解过了,memcache虽然是分布式的应用服务,但分布的原则是由client端的api来决定的,api根据存储用的key以及已知的服务转载 2011-12-13 22:27:41 · 663 阅读 · 0 评论 -
那些优雅的数据结构(1) : BloomFilter——大规模数据处理利器
转载:http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html本文是我一个雄心勃勃的写作计划的开始:1.Bloom Filter2.线段树3.树状数组4.Trie树5.后缀树,后缀数组6.并查集7.Hash表8.B树9.红黑树10.堆与优先队列 BloomFil转载 2011-12-09 20:45:07 · 837 阅读 · 0 评论 -
大数据量,海量数据 处理方法总结
转载:http://www.cppblog.com/longzxr/archive/2010/10/24/131047.html大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法转载 2011-12-09 20:47:57 · 1717 阅读 · 0 评论 -
从哈希存储到Bloom Filter
转载:http://blog.csdn.net/jiaomeng/article/details/1496329先解释一下什么是哈希函数。哈希函数简单来说就是一种映射,它可取值的范围(定义域)通常很大,但值域相对较小。哈希函数所作的工作就是将一个很大定义域内的值映射到一个相对较小的值域内。传统的哈希存储假设要哈希的集合为S,它有n个元素。传统的哈希方法是,将哈希区域组织成h(h转载 2011-12-09 20:46:43 · 760 阅读 · 1 评论 -
NoSQL数据库 Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase comparison
转载:http://hi.baidu.com/yandavid/blog/item/04f0d1952850ab52d1135e94.htmlNoSQL世界的几个重要理论1.CAP理论CAP理论无疑是导致技术趋势由关系数据库系统向NoSQL系统转变的最重要原因。CAP(Consistency,Availability,Patition tolerance)理论论述的是在任何转载 2011-12-19 18:03:35 · 1641 阅读 · 0 评论 -
cassandra入门 框架模型 总结
转载:http://asyty.iteye.com/blog/1202072目录一、 Cassandra框架二、 Cassandra数据模型Colum / Colum Family, SuperColum / SuperColum FamilyColum排序三、 分区策略Token,Partitionerbloom-filter,HASH四转载 2011-12-20 11:05:46 · 2754 阅读 · 0 评论 -
Counting Bloom Filter
转载:http://blog.csdn.net/jiaomeng/article/details/1498283从前面几篇对Bloom Filter的介绍可以看出,标准的Bloom Filter是一种很简单的数据结构,它只支持插入和查找两种操作。在所要表达的集合是静态集合的时候,标准Bloom Filter可以很好地工作,但是如果要表达的集合经常变动,标准Bloom Filter的转载 2011-12-12 22:13:31 · 991 阅读 · 0 评论 -
2011年5款备受关注的开源 NoSQL 数据库
转载:http://www.linuxde.net/2011/12/4965.html1. 集中式缓存系统 memcachedMemcached是一套分布式的快取系统,当初是Danga Interactive为了LiveJournal所发展的,但目前被许多软件(如MediaWiki)所使用。这是一套开放源代码软件,以BSD license授权释出。memcached缺乏转载 2011-12-20 19:13:44 · 1011 阅读 · 0 评论 -
Gossip-based Protocol
转载:http://hi.baidu.com/jingjing615/blog/item/3d42fd0343f6d188d53f7c17.html开始接触gossip,阅读了英文的peer-to-peer membership management for gossip-based protocols关于gossip,我先谈下自己的理解,这个协议是用来解决我们前面讨论过的part转载 2011-12-20 13:51:53 · 6160 阅读 · 0 评论 -
Vector Clock算法的理解
转载:http://www.kongch.com/2011/08/vector-clock-understanding/Vector Clock是Amazon’s Dynamo用来捕捉同一不同版本的对象的因果关系的一种算法。根据Dyanmo paper的描述,矢量时钟实际上是一个(node,counter)对列表(即(节点,计数器)列表)。矢量时钟是与每个对象的每个版本相关联。转载 2012-12-28 15:47:43 · 1043 阅读 · 0 评论