自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

刘爱贵的专栏

中科院博士,长期从事存储领域研发工作,分布式存储资深理论研究与实践者,GlusterFS 技术专家,专注软件定义存储,聚焦智能存储、国产自主可控存储和EB级存储方向。。

  • 博客(201)
  • 资源 (21)
  • 收藏
  • 关注

原创 GlusterFS集群文件系统研究

GlusterFS是Scale-Out存储解决方案Gluster的核心,它是一个开源的分布式文件系统,具有强大的横向扩展能力,通过扩展能够支持数PB存储容量和处理数千客户端。GlusterFS借助TCP/IP或InfiniBand RDMA网络将物理分布的存储资源聚集在一起,使用单一全局命名空间来管理数据。GlusterFS基于可堆叠的用户空间设计,可为各种不同的数据负载提供优异的性能。GlusterFS是一个具有高扩展性、高性能、高可用性、可横向扩展的弹性分布式文件系统,在架构设计上非常有特点,比如无元数

2011-03-28 21:01:00 95566 227

原创 横向扩展(Scale-Out)存储

信息呈现爆炸式增长趋势,存储需求急剧膨胀。企业迫切需要借助虚拟化、扩展性和共享能力于一身的存储池来实现随时随地按需分配资源。横向扩展(Scale-Out)存储有助于构建这一全新模式,通过创建存储核心架构来应对非结构化数据激增带来的巨大挑战。横向扩展存储的经济价值体现在改进扩展能力、加速配置、提升性能和简化管理、提高存储利用率等方面。横向扩展(Scale-Out)存储是当前的存储热点趋势之一。

2011-03-25 21:23:00 12484 2

转载 文件系统文献推荐

非常好的文件系统阅读文献,研究存储和文件系统的不能不读的,其中的每一个文件系统都非常经典的,代表存储或者文件系统发展过程的里程碑。

2011-03-22 21:35:00 7117 7

原创 分布式存储系统设计的若干原则

分布式存储系统设计中很多指标是不可得兼的,必须根据需求有所取舍。CAP理论、最终一致性、BASE理论、I/O五分钟法则、Amdahl定律和Gustafson定律、摩尔定律等,就是分布式存储系统设计的的几个经典的指导法则。

2011-02-20 16:06:00 39896 26

原创 磁盘IOPS计算与测量

IOPS (Input/Output Per Second)即每秒的输入输出量(或读写次数),是衡量磁盘性能的主要指标之一。IOPS是指单位时间内系统能处理的I/O请求数量,一般以每秒处理的I/O请求数量为单位,I/O请求通常为读或写数据操作请求。随机读写频繁的应用,如OLTP(Online Transaction Processing),IOPS是关键衡量指标。另一个重要指标是数据吞吐量(Throughput),指单位时间内可以成功传输的数据数量。对于大量顺序读写的应用,如VOD(Video On Dem

2011-01-28 18:30:00 43298 5

原创 存储行业学习资源推荐

对于想转入存储行业的同学来说,存储的基础知识是学习的必修课。而对于已经处于存储行业的同学来说,要想进阶就得不断地学习、思考和实践,并且紧密关注和跟踪存储技术的最新发展动态。无论是学习打基础,还是研究实践进阶,最直接的就是来自知识和经验的传播和交流,这方面的来源包括图书、行业和学术会议、网站和论坛以及开放源码等。图书的知识更为系统全面和专业,泛盖基础入门级别和研究进阶级别,手上应该常备几本经典存储图书以便随时学习和查阅。存储行业会议通常会报告和分享大量的最新存储精力事件、技术发展状态以及最新研究成果,有机会亲

2011-01-16 18:23:00 15556 7

原创 推荐系统原理简析

个性化推荐根据用户兴趣和行为特点,向用户推荐所需的信息或商品,帮助用户在过载信息中快速发现真正所需的商品,提高用户黏性,促进信息点击和商品销售。

2010-12-31 11:14:00 6047 1

原创 高效存储技术研究

现代信息呈现爆炸式增长趋势,数据总量急剧膨胀。信息在带来价值和财富的同时,也使给我们带来许多挑战,诸如存储空间巨大、管理复杂性、存储利用率低下、电力消耗巨大、冷却能力不足、总体拥有成本高昂。数据压缩、重复数据删除、自动精简配置、自动分层存储、存储虚拟化等高效存储技术有效解决或缓解了这些难题。然而,目前还没有从根本上解决,挑战和压力依然很巨大,我们期待高密度、超低能耗、高可靠的存储硬件技术发展以及全新的存储体系结构的出现。因为潜在的巨大存储需求和市场,存储将仍然是最为热门的IT领域,现有的高效存储技术会得到长

2010-12-08 21:29:00 20379 34

原创 存储技术趋势预测与分析

信息计算现已进入以数据为中心的时代,存储行业是目前最热门的领域之一。面对不断出现的存储需求新挑战,我们该如何把握存储的未来发展方向呢?本人根据自己的经验和理解尝试预测和分析一下存储的未来技术趋势,与存储同行分享,不当之处还请大家批评指正。

2010-11-28 23:49:00 19633 31

原创 分布式文件系统名字空间实现研究

名字空间(Namespace)即文件系统文件目录的组织方式,是文件系统的重要组成部分,为用户提供可视化的、可理解的文件系统视图,从而解决或降低人类与计算机之间在数据存储上的语义间隔。目前树状结构的文件系统组织方式与现实世界的组织结构最为相似,被人们所广泛接受。因此绝大多数的文件系统皆以Tree方式来组织文件目录,包括各种磁盘文件系统(EXTx, XFS, JFS, Reiserfs, ZFS, Btrfs, NTFS, FAT32等)、网络文件系统(NFS, AFS, CIFS/SMB等)、集群文件系统(L

2010-11-07 18:57:00 14070 22

原创 网络数据同步开发库libsync

"数据同步算法研究"一文提出了一种改进的数据同步算法,我在实现的原型系统基础上,将文件切分、差异编码、文件同步等关键算法抽取出来封装成动态开发库libsync,方便自己的开发应用。在本人开发的deduputil,WSIO, wsync等软件中,均使用了libsync动态函数库,现已将libsync发布至google code。

2010-10-18 23:30:00 7778 12

原创 Taobao分布式文件系统TFS简析

TFS官方称“TFS(Taobao FileSystem)是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统,其设计目标是支持海量的非结构化数据”。我个人花了点时间研究一下TFS的源码和相关技术文档,TFS与目前一些主流的开源分布式文件系统设计思想是相似的,如HDFS, MFS, KFS, Sector。TFS的高可扩展、高可用性是很好的,然而也存在一定不足,如通用性、用户接口、性能等方面。我这里粗略罗列一些自己认为TFS的不足之处,不当之处还请大家指正。

2010-10-17 11:58:00 44120 60

原创 云存储离我们还有多远?

从云存储趋势谈起,分析了未来云存储市场规模,介绍了云存储概念、典型云存储服务案例和云存储应用模式,重点剖析了影响云存储普及应用的主要因素,包括性能瓶颈、数据安全、标准与互操作、访问与管理、存储容量和价格因素。

2010-09-19 20:32:00 6471

原创 数据相似性检测算法

本文研究了数据相似性的计算方法,对Bloom filter和LCS两种常用相似性检测算法进行剖析、实现和分析比较。

2010-09-08 10:57:00 9564 17

原创 为什么咱中国有影响力的开源软件那么少?

LVS, multiget, fcitx, scim, stardict, miniGUI, grub4dos, jfox,这些都是比较有影响力的中国开源软件,可是这个列表显得有点短。为什么咱中国有影响力的开源软件那么少?期待与大家讨论和交流。

2010-09-05 14:17:00 18721 239

原创 重复数据删除(De-duplication)技术研究

De-duplication,即重复数据删除,它是一种目前主流且非常热门的存储技术,可对存储容量进行有效优化。它通过删除数据集中重复的数据,只保留其中一份,从而消除冗余数据。这种技术可以很大程度上减少对物理存储空间的需求,从而满足日益增长的数据存储需求。本文对Dedupe的概念和优势进行了阐述,并重要介绍了Dedupe实现要点、关键技术和数据安全性,并对本人开发的开源软件dedupe作为参考进行了引用和介绍。

2010-08-21 18:52:00 55108 112

原创 数据同步算法研究

基于Rsync和RDC算法思想并借助重复数据删除(De-duplication)技术,对数据同步算法进行深入研究与分析,并研发了原型系统。首先介绍rsync与RDC算法,然后详细描述算法设计与相应的数据结构,并重点分析文件分块、差异编码、文件同步算法,最后简介推拉两种应用模式。

2010-08-06 16:52:00 37402 109

原创 文件系统性能测试

简要介绍文件系统性能的衡量指标、性能关键点,给出常用测试基准benchmark和一些非标准的benchmark。

2010-07-30 16:38:00 8985 8

原创 inotify文件系统事件驱动机制

Windows系统一直有比较完善的文件系统变化通知机制,并为用户提供了FindFirstChangeNotification 等API来方便监控文件系统事件。Linux kernel从2.6.13版本起引入了inotify文件系统事件通知机制,以改善用户体验,使得用户空间可以非常方便地对文件系统变化事件进行监控。 Inotify 是一个 Linux 内核特性,它监控文件系统事件,并且及时发出相关的事件通知。

2010-07-22 10:08:00 3253

原创 基于dedup技术的远程相似文件同步

Rsync是类Unix环境下的一个高效的远程文件复制(同步)工具,它通过著名的Rsync算法来优化流程,减少了数据通信量并提高文件传输效率。为了弥补Rsync的不足,利用dedup技术中的变长块数据切分算法,重新实现了一个远程相似文件同步原型dedup_sync。

2010-07-06 11:26:00 3636 3

原创 Rsync滚动校验算法

Rsync中使用了一种滚动检验(Rolling Checksum)算法,用于快速计算数据块的检验值。它是一种弱校验算法,采用的是Mark Adler的adler-32校验,给定X1, ..., Xn的校验值,X1以及Xn+1,可以快速地计算出X2, ..., Xn+1校验值。这样,就可以高效地计算数据块连续校验值,大幅减少checksum计算量。

2010-06-25 14:39:00 9498 10

原创 dedup util数据块零碰撞算法

dedup util是一款轻量级数据打包归档工具,我认为它的数据安全性要高于性能,因此以牺牲部分性能为代价,对md5碰撞问题进行彻底解决,确保数据的安全性。

2010-06-10 14:31:00 5457 11

原创 SourceForge上发布dedup util

dedup util是一款开源的轻量级文件打包工具,它基于块级的重复数据删除技术,可以有效缩减数据容量,节省用户存储空间。目前已经在Sourceforge上创建项目,并且源码正在不断更新中。https://sourceforge.net/projects/deduputil

2010-06-02 12:20:00 11810 10

原创 SSD固态硬盘文件系统选择与性能优化

 最近由于工作需要,对ext3, ext4, reiserfs, reiser4, xfs, jfs, btrfs, nilfs2, logfs多种文件系统在SSD固态硬盘上的性能进行了全面的测试评估与分析,为实际应用选择SSD文件系统提供参考,并给出性能优化建议。测试中使用的Benchmark包括postmark, randomio, bonnie++, iozone, filebench,

2010-05-28 15:20:00 11485 3

原创 企业级SSD产品对比

注:空白项表示信息未证实,红色表示性能领先 SSD 厂商,黑色黑体表示性能(读写速度或 IOPS )领先 SSD 产品。    目前 PCI-E 接口 SSD 性能表现突出,小文件 IO 更多关注 IOPS ,许多 SSD 产品未给出相关数据。    IOPS 指标三个数据,第一个表示读 IOPS ,第二个表示写 IOPS 或混合 IOPS ,第三个表示混合 IOPS 。

2010-05-19 10:28:00 3690

原创 LOSF(Lots of small files)存储问题

LOSF(Lots of small files)存储问题 1、影响I/O性能的关键因素(1)诸如sys_open的系统调用开销(2)数据寻址时间(3)文件查询效率(4)cache策略失效(5)磁盘数据布局(6)数据局部性(7)CPU占用率高 2、针对关键因素的解决思路(1)Big file或者raw block device作为大的存储容器

2010-05-07 12:14:00 8780 1

原创 SSD固态磁盘选择的参考因素

1、主控芯片主控芯片是SSD的核心,决定性能和稳定性。主要有Intel, JMF, Samsung, INDILINX,其中Intel, Samsung比较领先,INDILINX是新贵,JMF主要面向低端市场。 2、缓存芯片缓存芯片辅助主控芯片进行数据处理,能够提升和稳定性能,一些低端产品因成本因素会省去缓存DRAM芯片。 3、NAND Flash芯片主要有In

2010-04-30 00:20:00 2793 2

原创 Linux文件系统选择

通过综合使用多种标准文件系统Benchmarks对Ext3, Ext4, Reiserfs, XFS, JFS, Reiser4的性能测试对比,对不同应用选择合适的文件系统给出以下方案,供大家参考。文件系统性能测试数据见附表。1、大量小文件(LOSF, Lost of small files)I/O应用(如小图片)Reiserfs(首选), Ext4文件系统适合这类负载特征,IO调度算

2010-04-23 16:36:00 15441 3

原创 Linux文件系统性能优化

由于各种的I/O负载情形各异,Linux系统中文件系统的缺省配置一般来说都比较中庸,强调普遍适用性。然而在特定应用下,这种配置往往在I/O性能方面不能达到最优。因此,如果应用对I/O性能要求较高,除了采用性能更高的硬件(如磁盘、HBA卡、CPU、MEM等)外,我们还可以通过对文件系统进行性能调优,来获得更高的I/O性能提升。总的来说,主要可以从三个方面来做工作:1、Disk相关参数调优

2010-04-13 17:49:00 12185

原创 WSIO - 基于WEB服务的远程文件I/O

 WSIO - 基于WEB服务的远程文件I/O团队名称:IHEPer作者:刘爱贵 电子邮箱:liuag@ihep.ac.cn 单位:中科院高能物理研究所 计算中心 PDF下载:http://download.csdn.net/source/2143070摘要WSIO是一个基于Web Service技术实现的、与POSIX标准兼容的文件I/O,实现了存储系统的远程

2010-03-19 11:48:00 16049 14

原创 存储学习之路

 从学生时做研究时起,我就算进入了存储领域,那时我的研究方向是网络存储、分布式计算,业余还研究点数据挖掘。毕业后进入存储行业的公司,差不多又有两年的时间了。前后算起来,我搞存储也有好几年的时间了,然而存储博大精深,我现在仍然行走在存储学习之路上。不过,我觉得自己还是有些东西(或者可以称之为经验)与存储同行分享一下,如果能对那么几个人有所帮助,我就觉得值得了。 0、存储入门 领路人的

2010-03-11 11:37:00 13672 9

原创 从研发角度谈存储技术的学习

对于研发人员,存储技术的学习内容非常之多。我根据自己的理解,把它们大致分为以下8项内容:1、系统管理:UNIX/Linux/Windows操作系统管理,要求熟悉甚至精通。2、开发技术:C/C++,网络编程,多进程/多线程,进程间通信。如果能掌握内核开发、驱动程序开发则更佳。3、存储基础:磁盘、RAID阵列、文件系统等存储相关硬件和软件的安装、配置、调试。4、存储系统:RAID,

2010-02-28 15:36:00 10185 5

原创 RAID级别简介

RAID0(Stripping): 至少需要2块盘 RAID1(Mirror): 需要2块盘 RAID10(Mirror, Stripping): 至少需要4块盘,并且是偶数个 RAID5(Distributed Parity Data): 至少需要3块盘 RAID50(Distributed Parity Data, Stripping): 至少需要6块盘, 并且是偶数个. 扩容

2010-02-23 19:46:00 3037

原创 基于Dedup的数据打包技术

基于Dedup的数据打包技术作者简介 :刘爱贵,研究方向为网络存储、数据挖掘和分布式计算;毕业于中科院,目前从事存储软件研发工作。 Email: Aigui.Liu@gmail.com注: 作者学识和经验水平有限,如有错误或不当之处,敬请批评指正。 0、引言    Tar, winrar, winzip是最为常见的数据打包工具软件,它们把文件集体封装成一个单独的数据包,从而

2010-01-09 20:39:00 12093 17

转载 A-Z Guide to Being an Architect

Source:http://msdn.microsoft.com/en-us/architecture/cc505969.aspx A Is for AdvocateB Is for BalanceC Is for CoachD Is for DependenciesE Is for EvangelistF Is for Frameworks

2010-01-05 17:59:00 1846

原创 匿名无须交互输入用户名和密码的samba配置方法(security = user)

NAS(Network Attached Storage),网络附加存储需要支持NFS(Network File System)和CIFS(Common Internet File Sysem)一种或两种文件共享访问协议。NAS的配置方法相对都比较简单,这方面的资料很多,后面附录了NFS和CIFS的配置参数介绍。这里主要解决一个在配置CIFS的遇到的问题。 CIFS需求:Securit

2009-12-25 21:44:00 43362 1

转载 “重复数据删除”技术的十大问题

1,到底什么是“重复数据删除(Deduplication)”技术 简单地说,就是在通过网络传输或存储数据时,不传送或存储多份相同数据,以减少对网络带宽和存储空间的占用。实际上以前的SIS(单实例存储)就是一种Dedu技术,但是它去重的单位是文件。现在流行的Deduplication技术通过是以数据块为单位的,去重效果会更好,实现起来复杂程度也更高一些。这些技术用在数据备份领域效果最

2009-12-22 23:09:00 4676

原创 字符串Hash函数评估

Hash查找因为其O(1)的查找性能而著称,被对查找性能要求高的应用所广泛采用。它的基本思想是:(1) 创建一个定长的线性Hash表,一般可以初始化时指定length;(2) 设计Hash函数,将关键字key散射到Hash表中。其中hash函数设计是最为关键的,均匀分布、冲突概率小全在它;(3) 通常采用拉链方法来解决hash冲突问题,即散射到同一个hash表项的关键字,以链表形式来表示(

2009-12-21 21:29:00 20314 27

原创 谨防define宏陷阱

最近在研究Deduplication(重复数据删除)存储技术,实现一个dedup原型系统,结果在Coding中遇到了一个莫名其妙的问题。简略代码如下:#include "dedup.h"#ifndef BLOCK_LEN#define BLOCK_LEN 32 * 1024 /* 32K Bytes */#endif#define BACKET_SIZE 1

2009-12-20 13:28:00 2477 3

原创 读中国历史

最近对很早以前买的"资治通鉴"兴趣颇大,百家讲谈听起来也是津津有味。中国历史真是源源流长,回味起来别有滋味。唐太宗有言曰:"以铜为镜可以正衣冠,以人为镜可以明得失,以古为镜可以知兴替"。了解历史,不仅可以丰富自身的谈资,说不定还可以对自己的人生、家庭和事业有着积极的影响。想起中学历史课上老师的一段中国历史朝代谱:    唐尧虞舜夏商周,春秋战国乱悠悠,    秦汉三国晋统一,南朝北

2009-12-13 10:37:00 1943 1

新一代全闪SDS存储系统技术架构

高性能硬件的快速发展,诸如多核 CPU 、高带网络、高性能 SSD以及各种智能芯片,为新一代性能型全闪 SDS 提供了发展机遇,裸金属云存储应运而生。全闪 SDS 基于全用户态设计(kernel bypass)、polling 模型、专核调度策略、端到端 NVMf 协议,极致发挥裸金属物理性能,实现百微秒级低延迟下的千万级 IOPS 超高性能。新一代性能型全闪 SDS ,为核心业务系统中 SDS 替换传统存储提供了极好的驱动力,为新兴应用提供了极佳的存储基础设施。

2020-12-11

TaoCloud FASS 技术白皮书 v1.9.pdf

新一代性能型全闪SDS,本白皮书在全闪存技术发展、产品体系、技术优势等的基础上,从全闪设计哲学、原理架构、XPE加速引擎、定位与对比等方面详细介绍了FASS全闪存储系统,同时完善了TaoCloud块存储线。

2020-04-19

分布式存储架构实践-2015.12.12

开源分布式存储简评以及分布式存储架构的一些实践

2015-12-12

GlusterFS分布式文件系统

重点内容包括GlusterFS简介,系统原理剖析,典型应用场景和开放问题讨论。

2015-09-22

闪存技术与应用方法-刘爱贵

闪存作为一种革新性的存储技术,由于其超高的性能和成本的不断下降,闪存已经成为数据中心不可或缺的技术元素。闪存有自身鲜明的特点,只有深入地理解其内在的原理和特性,方能更好地使用闪存技术。大数据是闪存最佳应用领域之一,从不同的角度挖掘和探索极有价值的应用方法。

2015-09-22

L101-5 GlusterFS系统原理剖析

GlusterFS架构特点,GlusterFS核心工作原理,GlusterFS典型功能剖析。

2014-01-07

GlusterFS 101培训课程

GlusterFS 101培训主要针对企业内训,同时面向IT主管、运维人员、测试人员、研发人员以及售前售后人员,提供GlusterFS相关基本原理、系统运维、软件测试、研发定制、解决方案等培训内容。

2013-12-02

分布式文件系统

分布式文件系统概述,内容涉及发展历史、系统架构、共享语义、共享锁、访问接口、元数据服务模型、数据分布模式、系统扩展性、系统可用性、cache一致性和典型案例。

2012-05-30

Linux File Sytem

剖析几种Linux文件系统的原理与机制,并介绍了文件系统测试与性能调优方法

2010-10-09

RAID 技术发展综述

现代企业信息化水平不断提高,数据已经取代计算成为了信息计算的中心。这促使对存储技术的需求越来越高,包括存储容量、 I/O 性能、数据安全性、可扩展性等诸多方面, RAID 应运而生。本文对 RAID 技术的概念特征、基本原理、关键技术、各种等级和发展现状进行了全面的阐述,并为用户如何进行应用选择提供了基本原则。

2009-09-22

快照(Snapshot)技术发展综述

传统数据备份技术存在备份窗口、恢复时间目标RTO和恢复时间点RPO过长的问题,无法满足企业关键性业务的数据保护需求,因此产生了数据快照技术。本文对快照技术的概念、特点、实现技术和发展现状进行了概括性阐述,并对其未来的发展进行了展望。

2009-08-28

Web服务

Web服务概述以及中间技术,并介绍了自己的一个应用实例。

2008-03-28

XML基础及解析技术

内容包括XML概述、基本语法、描述数据、显示,以及如何解析。

2008-03-28

P2P原理与技术

PPT内容包括P2P概述,分类,构件与算法,关键技术特性,P2P分析与比较,研究与未来。

2008-03-28

Introduction to DHT

Introduction to Distributed Hash Tables<br>Eric Rescorla<br>Network Resonance<br>ekr@networkresonance.com

2008-03-28

用GNU/Linux工作

Linux新手入门指南,介绍选择Linux的理由、Linux的哲学思想、学习LINUX的方法以及Linux下常用软件。

2008-03-27

数据挖掘技术及其应用现状

数据挖掘入门教程,介绍数据挖掘技术及其应用现状。

2008-03-27

数据挖掘教程

数据挖掘就是从大量的数据中挖掘出有用的信息。它是根据人<br>们的特定要求,从浩如烟海的数据中找出所需的信息来,供人们的特定需求使用。这个可以作为数据挖掘的入门教程。

2008-03-27

Survey of Clustering Algorithms

这篇文章是聚类算法的综述,几乎涵盖了各个领域的聚类算法,从各种方向上来谈论聚类算法(层次,划分,大数据集,图形,文本聚类,模糊聚类等),以及聚类的相关问题(如何计算距离, 如何确定聚类个数,如何对聚类结果进行评价等)。

2008-03-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除