- 博客(201)
- 资源 (21)
- 收藏
- 关注
原创 GlusterFS集群文件系统研究
GlusterFS是Scale-Out存储解决方案Gluster的核心,它是一个开源的分布式文件系统,具有强大的横向扩展能力,通过扩展能够支持数PB存储容量和处理数千客户端。GlusterFS借助TCP/IP或InfiniBand RDMA网络将物理分布的存储资源聚集在一起,使用单一全局命名空间来管理数据。GlusterFS基于可堆叠的用户空间设计,可为各种不同的数据负载提供优异的性能。GlusterFS是一个具有高扩展性、高性能、高可用性、可横向扩展的弹性分布式文件系统,在架构设计上非常有特点,比如无元数
2011-03-28 21:01:00 95566 227
原创 横向扩展(Scale-Out)存储
信息呈现爆炸式增长趋势,存储需求急剧膨胀。企业迫切需要借助虚拟化、扩展性和共享能力于一身的存储池来实现随时随地按需分配资源。横向扩展(Scale-Out)存储有助于构建这一全新模式,通过创建存储核心架构来应对非结构化数据激增带来的巨大挑战。横向扩展存储的经济价值体现在改进扩展能力、加速配置、提升性能和简化管理、提高存储利用率等方面。横向扩展(Scale-Out)存储是当前的存储热点趋势之一。
2011-03-25 21:23:00 12484 2
转载 文件系统文献推荐
非常好的文件系统阅读文献,研究存储和文件系统的不能不读的,其中的每一个文件系统都非常经典的,代表存储或者文件系统发展过程的里程碑。
2011-03-22 21:35:00 7117 7
原创 分布式存储系统设计的若干原则
分布式存储系统设计中很多指标是不可得兼的,必须根据需求有所取舍。CAP理论、最终一致性、BASE理论、I/O五分钟法则、Amdahl定律和Gustafson定律、摩尔定律等,就是分布式存储系统设计的的几个经典的指导法则。
2011-02-20 16:06:00 39896 26
原创 磁盘IOPS计算与测量
IOPS (Input/Output Per Second)即每秒的输入输出量(或读写次数),是衡量磁盘性能的主要指标之一。IOPS是指单位时间内系统能处理的I/O请求数量,一般以每秒处理的I/O请求数量为单位,I/O请求通常为读或写数据操作请求。随机读写频繁的应用,如OLTP(Online Transaction Processing),IOPS是关键衡量指标。另一个重要指标是数据吞吐量(Throughput),指单位时间内可以成功传输的数据数量。对于大量顺序读写的应用,如VOD(Video On Dem
2011-01-28 18:30:00 43298 5
原创 存储行业学习资源推荐
对于想转入存储行业的同学来说,存储的基础知识是学习的必修课。而对于已经处于存储行业的同学来说,要想进阶就得不断地学习、思考和实践,并且紧密关注和跟踪存储技术的最新发展动态。无论是学习打基础,还是研究实践进阶,最直接的就是来自知识和经验的传播和交流,这方面的来源包括图书、行业和学术会议、网站和论坛以及开放源码等。图书的知识更为系统全面和专业,泛盖基础入门级别和研究进阶级别,手上应该常备几本经典存储图书以便随时学习和查阅。存储行业会议通常会报告和分享大量的最新存储精力事件、技术发展状态以及最新研究成果,有机会亲
2011-01-16 18:23:00 15556 7
原创 推荐系统原理简析
个性化推荐根据用户兴趣和行为特点,向用户推荐所需的信息或商品,帮助用户在过载信息中快速发现真正所需的商品,提高用户黏性,促进信息点击和商品销售。
2010-12-31 11:14:00 6047 1
原创 高效存储技术研究
现代信息呈现爆炸式增长趋势,数据总量急剧膨胀。信息在带来价值和财富的同时,也使给我们带来许多挑战,诸如存储空间巨大、管理复杂性、存储利用率低下、电力消耗巨大、冷却能力不足、总体拥有成本高昂。数据压缩、重复数据删除、自动精简配置、自动分层存储、存储虚拟化等高效存储技术有效解决或缓解了这些难题。然而,目前还没有从根本上解决,挑战和压力依然很巨大,我们期待高密度、超低能耗、高可靠的存储硬件技术发展以及全新的存储体系结构的出现。因为潜在的巨大存储需求和市场,存储将仍然是最为热门的IT领域,现有的高效存储技术会得到长
2010-12-08 21:29:00 20379 34
原创 存储技术趋势预测与分析
信息计算现已进入以数据为中心的时代,存储行业是目前最热门的领域之一。面对不断出现的存储需求新挑战,我们该如何把握存储的未来发展方向呢?本人根据自己的经验和理解尝试预测和分析一下存储的未来技术趋势,与存储同行分享,不当之处还请大家批评指正。
2010-11-28 23:49:00 19633 31
原创 分布式文件系统名字空间实现研究
名字空间(Namespace)即文件系统文件目录的组织方式,是文件系统的重要组成部分,为用户提供可视化的、可理解的文件系统视图,从而解决或降低人类与计算机之间在数据存储上的语义间隔。目前树状结构的文件系统组织方式与现实世界的组织结构最为相似,被人们所广泛接受。因此绝大多数的文件系统皆以Tree方式来组织文件目录,包括各种磁盘文件系统(EXTx, XFS, JFS, Reiserfs, ZFS, Btrfs, NTFS, FAT32等)、网络文件系统(NFS, AFS, CIFS/SMB等)、集群文件系统(L
2010-11-07 18:57:00 14070 22
原创 网络数据同步开发库libsync
"数据同步算法研究"一文提出了一种改进的数据同步算法,我在实现的原型系统基础上,将文件切分、差异编码、文件同步等关键算法抽取出来封装成动态开发库libsync,方便自己的开发应用。在本人开发的deduputil,WSIO, wsync等软件中,均使用了libsync动态函数库,现已将libsync发布至google code。
2010-10-18 23:30:00 7778 12
原创 Taobao分布式文件系统TFS简析
TFS官方称“TFS(Taobao FileSystem)是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统,其设计目标是支持海量的非结构化数据”。我个人花了点时间研究一下TFS的源码和相关技术文档,TFS与目前一些主流的开源分布式文件系统设计思想是相似的,如HDFS, MFS, KFS, Sector。TFS的高可扩展、高可用性是很好的,然而也存在一定不足,如通用性、用户接口、性能等方面。我这里粗略罗列一些自己认为TFS的不足之处,不当之处还请大家指正。
2010-10-17 11:58:00 44120 60
原创 云存储离我们还有多远?
从云存储趋势谈起,分析了未来云存储市场规模,介绍了云存储概念、典型云存储服务案例和云存储应用模式,重点剖析了影响云存储普及应用的主要因素,包括性能瓶颈、数据安全、标准与互操作、访问与管理、存储容量和价格因素。
2010-09-19 20:32:00 6471
原创 为什么咱中国有影响力的开源软件那么少?
LVS, multiget, fcitx, scim, stardict, miniGUI, grub4dos, jfox,这些都是比较有影响力的中国开源软件,可是这个列表显得有点短。为什么咱中国有影响力的开源软件那么少?期待与大家讨论和交流。
2010-09-05 14:17:00 18721 239
原创 重复数据删除(De-duplication)技术研究
De-duplication,即重复数据删除,它是一种目前主流且非常热门的存储技术,可对存储容量进行有效优化。它通过删除数据集中重复的数据,只保留其中一份,从而消除冗余数据。这种技术可以很大程度上减少对物理存储空间的需求,从而满足日益增长的数据存储需求。本文对Dedupe的概念和优势进行了阐述,并重要介绍了Dedupe实现要点、关键技术和数据安全性,并对本人开发的开源软件dedupe作为参考进行了引用和介绍。
2010-08-21 18:52:00 55108 112
原创 数据同步算法研究
基于Rsync和RDC算法思想并借助重复数据删除(De-duplication)技术,对数据同步算法进行深入研究与分析,并研发了原型系统。首先介绍rsync与RDC算法,然后详细描述算法设计与相应的数据结构,并重点分析文件分块、差异编码、文件同步算法,最后简介推拉两种应用模式。
2010-08-06 16:52:00 37402 109
原创 inotify文件系统事件驱动机制
Windows系统一直有比较完善的文件系统变化通知机制,并为用户提供了FindFirstChangeNotification 等API来方便监控文件系统事件。Linux kernel从2.6.13版本起引入了inotify文件系统事件通知机制,以改善用户体验,使得用户空间可以非常方便地对文件系统变化事件进行监控。 Inotify 是一个 Linux 内核特性,它监控文件系统事件,并且及时发出相关的事件通知。
2010-07-22 10:08:00 3253
原创 基于dedup技术的远程相似文件同步
Rsync是类Unix环境下的一个高效的远程文件复制(同步)工具,它通过著名的Rsync算法来优化流程,减少了数据通信量并提高文件传输效率。为了弥补Rsync的不足,利用dedup技术中的变长块数据切分算法,重新实现了一个远程相似文件同步原型dedup_sync。
2010-07-06 11:26:00 3636 3
原创 Rsync滚动校验算法
Rsync中使用了一种滚动检验(Rolling Checksum)算法,用于快速计算数据块的检验值。它是一种弱校验算法,采用的是Mark Adler的adler-32校验,给定X1, ..., Xn的校验值,X1以及Xn+1,可以快速地计算出X2, ..., Xn+1校验值。这样,就可以高效地计算数据块连续校验值,大幅减少checksum计算量。
2010-06-25 14:39:00 9498 10
原创 dedup util数据块零碰撞算法
dedup util是一款轻量级数据打包归档工具,我认为它的数据安全性要高于性能,因此以牺牲部分性能为代价,对md5碰撞问题进行彻底解决,确保数据的安全性。
2010-06-10 14:31:00 5457 11
原创 SourceForge上发布dedup util
dedup util是一款开源的轻量级文件打包工具,它基于块级的重复数据删除技术,可以有效缩减数据容量,节省用户存储空间。目前已经在Sourceforge上创建项目,并且源码正在不断更新中。https://sourceforge.net/projects/deduputil
2010-06-02 12:20:00 11810 10
原创 SSD固态硬盘文件系统选择与性能优化
最近由于工作需要,对ext3, ext4, reiserfs, reiser4, xfs, jfs, btrfs, nilfs2, logfs多种文件系统在SSD固态硬盘上的性能进行了全面的测试评估与分析,为实际应用选择SSD文件系统提供参考,并给出性能优化建议。测试中使用的Benchmark包括postmark, randomio, bonnie++, iozone, filebench,
2010-05-28 15:20:00 11485 3
原创 企业级SSD产品对比
注:空白项表示信息未证实,红色表示性能领先 SSD 厂商,黑色黑体表示性能(读写速度或 IOPS )领先 SSD 产品。 目前 PCI-E 接口 SSD 性能表现突出,小文件 IO 更多关注 IOPS ,许多 SSD 产品未给出相关数据。 IOPS 指标三个数据,第一个表示读 IOPS ,第二个表示写 IOPS 或混合 IOPS ,第三个表示混合 IOPS 。
2010-05-19 10:28:00 3690
原创 LOSF(Lots of small files)存储问题
LOSF(Lots of small files)存储问题 1、影响I/O性能的关键因素(1)诸如sys_open的系统调用开销(2)数据寻址时间(3)文件查询效率(4)cache策略失效(5)磁盘数据布局(6)数据局部性(7)CPU占用率高 2、针对关键因素的解决思路(1)Big file或者raw block device作为大的存储容器
2010-05-07 12:14:00 8780 1
原创 SSD固态磁盘选择的参考因素
1、主控芯片主控芯片是SSD的核心,决定性能和稳定性。主要有Intel, JMF, Samsung, INDILINX,其中Intel, Samsung比较领先,INDILINX是新贵,JMF主要面向低端市场。 2、缓存芯片缓存芯片辅助主控芯片进行数据处理,能够提升和稳定性能,一些低端产品因成本因素会省去缓存DRAM芯片。 3、NAND Flash芯片主要有In
2010-04-30 00:20:00 2793 2
原创 Linux文件系统选择
通过综合使用多种标准文件系统Benchmarks对Ext3, Ext4, Reiserfs, XFS, JFS, Reiser4的性能测试对比,对不同应用选择合适的文件系统给出以下方案,供大家参考。文件系统性能测试数据见附表。1、大量小文件(LOSF, Lost of small files)I/O应用(如小图片)Reiserfs(首选), Ext4文件系统适合这类负载特征,IO调度算
2010-04-23 16:36:00 15441 3
原创 Linux文件系统性能优化
由于各种的I/O负载情形各异,Linux系统中文件系统的缺省配置一般来说都比较中庸,强调普遍适用性。然而在特定应用下,这种配置往往在I/O性能方面不能达到最优。因此,如果应用对I/O性能要求较高,除了采用性能更高的硬件(如磁盘、HBA卡、CPU、MEM等)外,我们还可以通过对文件系统进行性能调优,来获得更高的I/O性能提升。总的来说,主要可以从三个方面来做工作:1、Disk相关参数调优
2010-04-13 17:49:00 12185
原创 WSIO - 基于WEB服务的远程文件I/O
WSIO - 基于WEB服务的远程文件I/O团队名称:IHEPer作者:刘爱贵 电子邮箱:liuag@ihep.ac.cn 单位:中科院高能物理研究所 计算中心 PDF下载:http://download.csdn.net/source/2143070摘要WSIO是一个基于Web Service技术实现的、与POSIX标准兼容的文件I/O,实现了存储系统的远程
2010-03-19 11:48:00 16049 14
原创 存储学习之路
从学生时做研究时起,我就算进入了存储领域,那时我的研究方向是网络存储、分布式计算,业余还研究点数据挖掘。毕业后进入存储行业的公司,差不多又有两年的时间了。前后算起来,我搞存储也有好几年的时间了,然而存储博大精深,我现在仍然行走在存储学习之路上。不过,我觉得自己还是有些东西(或者可以称之为经验)与存储同行分享一下,如果能对那么几个人有所帮助,我就觉得值得了。 0、存储入门 领路人的
2010-03-11 11:37:00 13672 9
原创 从研发角度谈存储技术的学习
对于研发人员,存储技术的学习内容非常之多。我根据自己的理解,把它们大致分为以下8项内容:1、系统管理:UNIX/Linux/Windows操作系统管理,要求熟悉甚至精通。2、开发技术:C/C++,网络编程,多进程/多线程,进程间通信。如果能掌握内核开发、驱动程序开发则更佳。3、存储基础:磁盘、RAID阵列、文件系统等存储相关硬件和软件的安装、配置、调试。4、存储系统:RAID,
2010-02-28 15:36:00 10185 5
原创 RAID级别简介
RAID0(Stripping): 至少需要2块盘 RAID1(Mirror): 需要2块盘 RAID10(Mirror, Stripping): 至少需要4块盘,并且是偶数个 RAID5(Distributed Parity Data): 至少需要3块盘 RAID50(Distributed Parity Data, Stripping): 至少需要6块盘, 并且是偶数个. 扩容
2010-02-23 19:46:00 3037
原创 基于Dedup的数据打包技术
基于Dedup的数据打包技术作者简介 :刘爱贵,研究方向为网络存储、数据挖掘和分布式计算;毕业于中科院,目前从事存储软件研发工作。 Email: Aigui.Liu@gmail.com注: 作者学识和经验水平有限,如有错误或不当之处,敬请批评指正。 0、引言 Tar, winrar, winzip是最为常见的数据打包工具软件,它们把文件集体封装成一个单独的数据包,从而
2010-01-09 20:39:00 12093 17
转载 A-Z Guide to Being an Architect
Source:http://msdn.microsoft.com/en-us/architecture/cc505969.aspx A Is for AdvocateB Is for BalanceC Is for CoachD Is for DependenciesE Is for EvangelistF Is for Frameworks
2010-01-05 17:59:00 1846
原创 匿名无须交互输入用户名和密码的samba配置方法(security = user)
NAS(Network Attached Storage),网络附加存储需要支持NFS(Network File System)和CIFS(Common Internet File Sysem)一种或两种文件共享访问协议。NAS的配置方法相对都比较简单,这方面的资料很多,后面附录了NFS和CIFS的配置参数介绍。这里主要解决一个在配置CIFS的遇到的问题。 CIFS需求:Securit
2009-12-25 21:44:00 43362 1
转载 “重复数据删除”技术的十大问题
1,到底什么是“重复数据删除(Deduplication)”技术 简单地说,就是在通过网络传输或存储数据时,不传送或存储多份相同数据,以减少对网络带宽和存储空间的占用。实际上以前的SIS(单实例存储)就是一种Dedu技术,但是它去重的单位是文件。现在流行的Deduplication技术通过是以数据块为单位的,去重效果会更好,实现起来复杂程度也更高一些。这些技术用在数据备份领域效果最
2009-12-22 23:09:00 4676
原创 字符串Hash函数评估
Hash查找因为其O(1)的查找性能而著称,被对查找性能要求高的应用所广泛采用。它的基本思想是:(1) 创建一个定长的线性Hash表,一般可以初始化时指定length;(2) 设计Hash函数,将关键字key散射到Hash表中。其中hash函数设计是最为关键的,均匀分布、冲突概率小全在它;(3) 通常采用拉链方法来解决hash冲突问题,即散射到同一个hash表项的关键字,以链表形式来表示(
2009-12-21 21:29:00 20314 27
原创 谨防define宏陷阱
最近在研究Deduplication(重复数据删除)存储技术,实现一个dedup原型系统,结果在Coding中遇到了一个莫名其妙的问题。简略代码如下:#include "dedup.h"#ifndef BLOCK_LEN#define BLOCK_LEN 32 * 1024 /* 32K Bytes */#endif#define BACKET_SIZE 1
2009-12-20 13:28:00 2477 3
原创 读中国历史
最近对很早以前买的"资治通鉴"兴趣颇大,百家讲谈听起来也是津津有味。中国历史真是源源流长,回味起来别有滋味。唐太宗有言曰:"以铜为镜可以正衣冠,以人为镜可以明得失,以古为镜可以知兴替"。了解历史,不仅可以丰富自身的谈资,说不定还可以对自己的人生、家庭和事业有着积极的影响。想起中学历史课上老师的一段中国历史朝代谱: 唐尧虞舜夏商周,春秋战国乱悠悠, 秦汉三国晋统一,南朝北
2009-12-13 10:37:00 1943 1
新一代全闪SDS存储系统技术架构
2020-12-11
TaoCloud FASS 技术白皮书 v1.9.pdf
2020-04-19
闪存技术与应用方法-刘爱贵
2015-09-22
GlusterFS 101培训课程
2013-12-02
RAID 技术发展综述
2009-09-22
快照(Snapshot)技术发展综述
2009-08-28
Introduction to DHT
2008-03-28
数据挖掘教程
2008-03-27
Survey of Clustering Algorithms
2008-03-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人