存储基础知识
文章平均质量分 89
快乐的霖霖
一个人默默的奋斗者
展开
-
来源查询检索的研究
来源查询检索的研究 来源查询的方式主要有:基于内容索引的查询—>基于时间局部性的上下文增强搜索查询—>基于因果关系的查询(根据provenance提供上下文有关的索引,即因果关系)。 (1)传统的来源查询检索方式为基于内容索引的查询。在这种方式中,用户通过一些定义好的查询语言通过提交查询来和搜索工具交互。搜索工具然后从文件内容中或一个来自文件内容的先前计算的索引来查看,将结果等级排原创 2012-02-24 17:13:39 · 987 阅读 · 0 评论 -
哈希函数——ELF HASH和CRC HASH解析
哈希函数——ELF HASH和CRC HASH解析 一. 简介 Hash应用中,字符串是最为常见的关键字,应用非常普通,现在的程序设计语言中基本上都提供了字符串hash表的支持。字符串hash函数非常多,常见的主要有Simple_hash, RS_hash, JS_hash, PJW_hash, ELF_hash, BKDR_hash, SDBM_hash, DJB_原创 2013-04-08 20:46:35 · 4255 阅读 · 0 评论 -
滚动校验(Rolling Checksum)算法
滚动校验(Rolling Checksum)算法Rsync中使用了一种滚动检验(Rolling Checksum)算法,用于快速计算数据块的检验值。它是一种弱校验算法,采用的是Mark Adler的adler-32校验,它的定义如下: a(k, l) = (∑Xi) mod M b(k, l) = (∑(l - i +1)Xi) mod原创 2013-04-09 10:24:49 · 11677 阅读 · 1 评论 -
rsync 的核心算法
rsync 的核心算法 rsync是unix/linux下同步文件的一个高效算法,它能同步更新两处计算机的文件与目录,并适当利用查找文件中的不同块以减少数据传输。rsync中重要的特性就是对有变更的部分进行传送。rsync可拷贝/显示目录属性,以及拷贝文件,并可选择性的压缩以及递归拷贝。 问题: 首先,我们来想一下rsync要解决的问题,如果我们要原创 2013-04-09 10:39:11 · 1642 阅读 · 0 评论 -
数据同步算法研究
数据同步算法研究1、引言 基于LAN或WAN的网络应用之间进行数据传输或者同步非常普遍,比如远程数据镜像、备份、复制、同步,数据下载、上传、共享等等,最为简单的做法自然就是对数据进行完全复制。然而,数据在网络上来回被复制多次后就会存在大量副本,很多情形下这些文件副本之间仅有很小的差异,很可能是从同一个文件版本演化而来。如果对文件进行完全复制,在文件较大的情况下,会占用大量转载 2013-04-09 11:40:05 · 2467 阅读 · 0 评论 -
文件数据块分块算法解析
文件数据块分块算法解析1. 简介 存储系统的重复数据删除过程一般是这样的:首先将数据文件分割成一组数据块,为每个数据块计算指纹,然后以指纹为关键字进行Hash查找,匹配则表示该数据块为重复数据块,仅存储数据块索引号,否则则表示该数据块是一个新的唯一块,对数据块进行存储并创建相关元信息。这样,一个物理文件在存储系统就对应一个逻辑表示,由一组FP组成的元数据。当进行读取原创 2013-04-09 15:14:51 · 5916 阅读 · 2 评论 -
数据相似性检测算法
数据相似性检测算法1、引言 "数据同步算法研究"一文研究了在网络上高效同步数据的方法,其中有个前提是文件A和B非常相似,即两者之间存在大量相同的数据。如果两个文件相似性很低,虽然这种方法依然可以正常工作,但数据同步性能却不会得到提高,甚至会有所降低。因为会产生部分元数据和网络通信消耗,这在两个文件完全不相关时尤为明显。因此,同步数据前需要计算种子文件(seed fil转载 2013-04-10 10:54:18 · 1505 阅读 · 0 评论 -
一个简单的Key-Value小数据库tmdb的原理和实现
一个简单的Key-Value小数据库tmdb的原理和实现1 基本特点ey-Value 数据库是很早起比较典型的老式数据库,从Unix早期的dbm,后来的GNU版本的gdbm,还有ndbm,sdbm, cdb 以及功能强大的Berkeley DB (BDB)、还有这两年风头很劲的qdbm,都是典型代表。实际上来说,Key-Value 数据库不是严格意义上的数据库,只是一个简单原创 2013-06-27 09:57:02 · 4669 阅读 · 0 评论 -
Bitcask哈希存储系统
Bitcask哈希存储系统一. 简介 bitcask来自于riak,是一个日志(log-structured)存储系统。用在riak的分布式数据库的底层key-value的存储,是基于哈希表结构的键值存储系统,它仅支持追加操作,即所有的写操作只追加而不修改老的数据。二. 系统架构 1.日志型的数据文件何谓日志型?就是a原创 2014-01-01 10:23:12 · 2039 阅读 · 0 评论 -
bloom filter详细讲解以及代码分析
bloom filter详细讲解以及代码分析一. 简介1.什么是bloom filter? Bloom filter 是由 Howard Bloom 在 1970 年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素是不是集合中的一个成员,这种检测只会对在集合内的数据错判,而不会对不是集合内的数据进行错判,这样每个检测请求返回有“在集合内(可能错误原创 2012-09-28 08:47:23 · 1725 阅读 · 0 评论 -
HASHDB:一个简单的Key-value的存储系统原型
HASHDB:一个简单的Key-value的存储系统原型来源:http://blog.csdn.net/liuben/article/details/66708411、HashDB是什么?HashDB是一个简单的KeyValue存储系统原型,提供基本的二元组的数据存储与读取功能,亦即当前被广为推崇的NoSQL存储系统。最初想到设计这个小系统,完全是出于偶然。本人维护转载 2012-10-10 16:07:30 · 1376 阅读 · 0 评论 -
FastDFS分布式文件系统剖析(一)
FastDFS分布式文件系统剖析(一)最近一直在研究FastDFS的架构,作为学习成果的一部分,准备利用接下来的一段时间把一些心得点滴记录下来。我在网上参考了大量的资料,大致分为下面一些:1. fastdfs 架构概述2. 网络模型、libevent框架使用3. tracker 、storage 入口分析4. upload上传机制剖析5. down原创 2012-09-30 16:48:43 · 1199 阅读 · 1 评论 -
快照技术的发展
快照技术的发展下面这篇文章主要参考大牛的博客:http://blog.csdn.net/liuben/article/details/4494555一.引言 随着计算机技术和网络技术的不断发展,信息技术水平不断得到提高。人类进入称为信息社会的二十一世纪后,诸如数字通信、数字多媒体、电子商务、搜索引擎、数字图书馆、天气预报、地质勘探、科学研究等海量数据型应用的涌现,各种信息呈原创 2012-10-16 20:12:00 · 1569 阅读 · 0 评论 -
备份技术
备份技术 备份技术是灾难恢复技术的一个基础,没有使用备份技术进行全面,及时以及准确的备份,就无法进行灾难恢复. (1)备份策略 备份策略的制定是备份系统的一个重要部分,备份策略的选择依赖于数据的重要性,允许备份的可用时间以及其他的一些因素.一般来说,主要有四种备份策略. 全量备份是指拷贝指定的备份对象的所以内容.全量备份可以适用于服务器,包括所有分配原创 2012-11-14 19:47:42 · 1104 阅读 · 0 评论 -
bacula网络备份与恢复
bacula网络备份与恢复转载于: http://www.linux8080.com/?p=458一、bacula介绍bacula是一款开源的跨平台网络备份工具,它提供了基于企业级的客户端/服务器的备份恢复解决方案,通过它,系统管理人员可以对 数据进行备份、恢复,以及完整性验证等操作,同时,它还提供了许多高级存储管理功能,使系统管理人员能够很容易发现并恢复丢失的转载 2012-11-15 23:33:00 · 4211 阅读 · 0 评论 -
RLE压缩算法详解
RLE压缩算法详解 RLE(Run Length Encoding)行程长度压缩算法(也称游程长度压缩算法),是最早出现,也是最简单的无损数据压缩算法。RLE算法的基本思路是把数据按照线性序列分成两种情况:一种是连续的重复数据块,另一种是连续的不重复数据块。对于第一种情况,对连续的重复数据块进行压缩,压缩方法就是用一个表示块数的属性加上一个数据块代表原来连续的若干块数据。对于原创 2012-12-03 13:54:51 · 13253 阅读 · 0 评论 -
重复数据删除工具deduputil安装与介绍
重复数据删除工具deduputil安装与介绍dedup util是一款开源的轻量级文件打包工具,它基于块级的重复数据删除技术,可以有效缩减数据容量,节省用户存储空间。目前已经在Sourceforge上创建项目,并且源码正在不断更新中。该工具生成的数据包内部数据部局(layout)如下:-------------------------------------------原创 2012-12-07 22:00:31 · 1553 阅读 · 0 评论 -
谷歌技术之MapReduce简介
谷歌技术之MapReduce简介1.MapReduce是干啥的因为没找到谷歌的示意图,所以我想借用一张Hadoop项目的结构图来说明下MapReduce所处的位置,如下图。Hadoop实际上就是谷歌三宝的开源实现,Hadoop MapReduce对应Google MapReduce,HBase对应BigTable,HDFS对应GFS。HD原创 2012-12-14 09:30:40 · 956 阅读 · 0 评论 -
LSM树设计思想以及存储模型
LSM树设计思想以及存储模型 一. LSM树的设计思想 1. 哈希存储系统 哈希表的持久化实现,支持增、删、改以及随机读取操作,但不支持顺序扫描,对应的存储系统为key-value存储系统。对于key-val...原创 2015-10-25 12:42:10 · 3438 阅读 · 0 评论