计算机理论
刘爱贵
中科院博士,TaoCloud首席科学家,专注软件定义存储,聚焦智能存储、分布式全闪存、信创存储方向。GlusterFS技术专家,长期从事存储领域研发工作,分布式存储资深理论研究与实践者。
展开
-
突破硬件瓶颈(三):旧时代的遗珠——并行流水线架构
20年前,CPU的主流设计是流水线架构,增长流水线层级就可以提升性能。然而AMD的K8架构证明intel的发展方向是偏激的,它用更低的功耗和频率,战胜了使用31级流水线的Pentium 4 Intel被迫解散了NetBurst小组,承认了其失败,转而发展Core 2系列,借鉴了AMD将IMC加入CPU DIE的设计,大大加快内存的处理速度,解放了CPU性能。紧接着又转向了多核心处理器的研发,从单条流水线转向了并行流水线,打的AMD毫无还手之力。 十多年过去,截止目前的主流CP...原创 2020-10-07 13:38:48 · 1882 阅读 · 1 评论 -
浅谈分布式全闪存储自动化测试平台设计
摘要本文简单介绍了分布式全闪的基本架构,根据对存储架构的理解和软件自动化测试系统理论的研究,指出软件自动化系统需涉及的主要方面,为软件自动化测试系统实现奠定基础。根据软件测试需求(功能、可靠性、性能),列出自动化系统的各个模块,逐步细化、设计,实现能与测试流程融合的自动化测试框架。在此基础上,还提出了未来自动化测试系统后续的优化方向,让大家意识到软件自动化测试的合理应用是软件开发过程中降本增效的关键。引言·分布式存储是具有独特系统架构的数据存储技术,它可以聚合复数主流的服务器来完成单个节点无法完原创 2020-10-07 13:33:49 · 1529 阅读 · 0 评论 -
Gluster集群管理小分析
开源分布式文件系统GlusterFS的集群管理系统GlusterD设计复杂,然而剖析其内部原理的参考文献极少,如果不熟悉源码,遇到问题解决难度比较大。本文的小目标是对GlusterD进行架构设计及代码层面的简析,深入了解GlusterD机制,从而帮助技术人员提高定位和解决问题的效率。1 GlusterD架构设计GlusterD作为GlusterFS的集群管理系统,其主要负责GlusterFS的集群信息管理,弹性卷管理,保证集群配置一致性,命令行操作,服务进程管理等。GlusterD部署于每一个存原创 2020-09-06 09:25:16 · 1541 阅读 · 0 评论 -
突破硬件瓶颈(二):存储架构和协议瓶颈
The kernel isn’t the solution. The kernel is the problem. ——Robert Graham CEO of Errata SecurityLinux系统设计之初,采用了分级、分层设计方式,用户调用底层设备,需要切换到内核态,由系统进行调用,这种方式适合硬盘速度远低于CPU的场景。然而随着存储速度越来越快,以及网络存储的兴起,这种设计逐渐成为了存储的瓶颈。另外,本地硬盘协议,以及网络协议,也都成为了提高性能的绊脚石。本文是突破硬件瓶...原创 2020-06-21 10:45:37 · 1052 阅读 · 0 评论 -
突破硬件瓶颈(一):Intel体系架构的发展与瓶颈挖掘
软件定义存储SDS正在从容量型向性能型演进,千万级IOPS和微秒级低延迟,非常具有挑战性。3节点标准x86服务器,能否有可能实现1000万IOPS与200us低延迟?这个可以有。硬件性能并不是瓶颈所在,软件颠覆才是关键。想要取得如此强的性能,必须要有突破时下存储软件对于硬件利用的瓶颈。而要突破这些瓶颈,就需要对硬件有深入的了解,而后利用软件想方设法突破,或者绕过他们,实现性能的腾飞。本文是突破硬件瓶颈系列文章的第一篇,分析Intel体系架构带来的瓶颈。存储的性能越高,则对延迟越敏感,当.原创 2020-06-21 10:40:17 · 1412 阅读 · 0 评论 -
【译】利用uDepot获得快速NVM存储的性能
小Tao们在进行分布式全闪存文件系统的预研工作,从学术圈和工业界寻找灵感,发现这篇前沿文章,并翻译出来和大家学习分享。 “这是一篇KV存储技术方向中少见的讲述如何即高效又经济地使用快速闪存设备的文章,观点新颖,方法独特,参考和使用价值很高。” ——译者 摘要许多应用程序需要低延迟的KV存储,为了满足这一需求,通常使用基于DRAM后端的KV存储。然而,与传统的SSD相比,最...原创 2020-03-01 10:52:16 · 2129 阅读 · 3 评论 -
FASS分布式全闪存储技术白皮书
当前单块NVMe SSD性能可以达到100万IOPS,SSD硬盘与HDD机械硬盘有了天壤之别。传统存储的软硬件架构,都已经不再适合承载高速闪存介质,它们从根本上制约了新型存储介质的生产力。全闪存阵列已经逐步向全NVMe硬件转移,然而其扩展性与灵活性,在云计算时代始终是最大的瓶颈。分布式全闪存储系统在全闪存介质配置的基础上,采用了标准的硬件平台、高效的新兴存储协议、极致的软件优化,可提供更简单经济、...原创 2019-12-17 14:26:18 · 5615 阅读 · 4 评论 -
相似数据检测算法
相似数据检测算法对给定的一对数据序列计算两者之间的相似度([0,1], 1表示完全相同)或距离([0, ), 0表示完全相同),从而度量数据之间的相似程度。相似数据检测在信息科学领域具有非常重要的应用价值,比如搜索引擎检索结果的聚类与排序、数据聚类与分类、Spam检测、论文剽窃检测、重复数据删除、Delta数据编码等应用。正是由于它的重要性,近年来成为了研究的重点,不断有新检测方法涌现并得到评估。原创 2011-10-22 22:21:40 · 22133 阅读 · 33 评论 -
分布式文件系统测试方法与测试工具
非结构化数据、大数据、云存储已经毫无争议地成为了信息技术发展趋势和热点,分布式文件系统作为核心基础被推到了浪潮之巅,广泛被工业界和学术界热推。现代分布式文件系统普遍具有高性能、高扩展、高可用、高效能、易使用、易管理等特点,架构设计的复杂性使得系统测试也非常复杂。从商业产品ISILON, IBRIX, SONAS, Filestore, NetApp GX, Panasas, StorNext, B原创 2012-02-07 21:55:34 · 23017 阅读 · 41 评论 -
分布式文件系统
PDF格式PPT下载:分布式文件系统原创 2012-05-30 21:27:04 · 18053 阅读 · 17 评论 -
海量小文件问题综述
海量小文件LOSF问题是工业界和学术界公认的难题,分析了LOSF问题的由来以及典型的应用场景,并简要阐述了当前文件系统在LOSF优化方面的进展。重点分析LOSF问题的根本原因,并给出具体的优化方法和策略,期望对LOSF问题的研究和优化实践提供一定的理论指导。原创 2013-08-15 12:13:51 · 34867 阅读 · 12 评论 -
GlusterFS集群文件系统研究
GlusterFS是Scale-Out存储解决方案Gluster的核心,它是一个开源的分布式文件系统,具有强大的横向扩展能力,通过扩展能够支持数PB存储容量和处理数千客户端。GlusterFS借助TCP/IP或InfiniBand RDMA网络将物理分布的存储资源聚集在一起,使用单一全局命名空间来管理数据。GlusterFS基于可堆叠的用户空间设计,可为各种不同的数据负载提供优异的性能。GlusterFS是一个具有高扩展性、高性能、高可用性、可横向扩展的弹性分布式文件系统,在架构设计上非常有特点,比如无元数原创 2011-03-28 21:01:00 · 95568 阅读 · 227 评论 -
无交换机实现集群网络互联
分布式集群中对于高性能网络的需求日益增强,尤其是存储集群,对于数据交换的网络带宽、延迟等要求更高。而对于超小规模集群(三节点、四节点等),万兆交换机的使用严重地增加了TCO。这成为了一些小微型企业小规模集群建设的一个门槛。这里对无交换机实现集群网络互联进行了一些简单的探索。原创 2017-01-04 23:28:08 · 5424 阅读 · 0 评论 -
存储原创文章精选
一直坚持撰写存储相关的原创博文,蓦然发现已经小有规模,然而总体显得有点杂乱。回顾了一下这些文章,选择了如下这些花了点心思认真思考并能够经得起推敲的文章,组成一个所谓的存储博文精选专辑,后续会不断进行补充。这样,一来是为了自我勉励,二来是为有需要的朋友查阅方便。[36] FASS分布式全闪存储技术白皮书[35] 开源对象存储MinIO技术白皮书[34] MaxIO智能缓存加速技术...原创 2012-02-10 23:27:27 · 19112 阅读 · 14 评论 -
分布式文件系统元数据服务模型
随着非结构化数据的爆炸,分布式文件系统进入了发展的黄金时期,从高性能计算到数据中心,从数据共享到互联网应用,已经渗透到数据应用的各方各面。对于大多数分布式文件系统(或集群文件系统,或并行文件系统)而言,通常将元数据与数据两者独立开来,即控制流与数据流进行分离,从而获得更高的系统扩原创 2011-09-05 12:05:38 · 15831 阅读 · 21 评论 -
深入理解Bloom Filter
Bloom Filter是1970年由Bloom提出的,最初广泛用于拼写检查和数据库系统中。近年来,随着计算机和互联网技术的发展,数据集的不断扩张使得 Bloom filter获得了新生,各种新的应用和变种不断涌现。Bloom filter是一个空间效率很高的数据结构,它由一个位原创 2011-07-13 12:40:43 · 13689 阅读 · 8 评论 -
中缀和后缀算术表达式的分析比较
<!-- /* Style Definitions */ table.MsoNormalTable {mso-style-name:普通表格; mso-tstyle-rowband-size:0; mso-tstyle-colband-size:0; mso-style-noshow:yes; mso-style-priority:99; mso-style-q原创 2009-11-09 22:38:00 · 5511 阅读 · 0 评论 -
指令和数据混合存储与分开存储的比较
<!-- /* Style Definitions */ table.MsoNormalTable {mso-style-name:普通表格; mso-tstyle-rowband-size:0; mso-tstyle-colband-size:0; mso-style-noshow:yes; mso-style-priority:99; mso-style-q原创 2009-11-11 21:45:00 · 8989 阅读 · 1 评论 -
递归函数论与程序设计的关系
递归函数论与程序设计的关系(刘爱贵 高能物理研究所计算中心 北京 2003年)摘要: 递归函数论是元计算机科学理论基础,它与计算机科学的实践紧密相关。递归思想影响了程序设计语言的构造,甚至影响了计算机系统结构。本文根据递归函数类的构造过程来论证递归与程序设计语言基层控制机制的关系,以及递归思想对计算机科学其他一些方面的影响。关键词: 递归定义 复合 原始递归 极小化 结构化原创 2009-11-29 21:54:00 · 4093 阅读 · 3 评论 -
基于Dedup的数据打包技术
基于Dedup的数据打包技术作者简介 :刘爱贵,研究方向为网络存储、数据挖掘和分布式计算;毕业于中科院,目前从事存储软件研发工作。 Email: Aigui.Liu@gmail.com注: 作者学识和经验水平有限,如有错误或不当之处,敬请批评指正。 0、引言 Tar, winrar, winzip是最为常见的数据打包工具软件,它们把文件集体封装成一个单独的数据包,从而原创 2010-01-09 20:39:00 · 12094 阅读 · 17 评论 -
高效存储技术研究
现代信息呈现爆炸式增长趋势,数据总量急剧膨胀。信息在带来价值和财富的同时,也使给我们带来许多挑战,诸如存储空间巨大、管理复杂性、存储利用率低下、电力消耗巨大、冷却能力不足、总体拥有成本高昂。数据压缩、重复数据删除、自动精简配置、自动分层存储、存储虚拟化等高效存储技术有效解决或缓解了这些难题。然而,目前还没有从根本上解决,挑战和压力依然很巨大,我们期待高密度、超低能耗、高可靠的存储硬件技术发展以及全新的存储体系结构的出现。因为潜在的巨大存储需求和市场,存储将仍然是最为热门的IT领域,现有的高效存储技术会得到长原创 2010-12-08 21:29:00 · 20382 阅读 · 34 评论 -
分布式文件系统名字空间实现研究
名字空间(Namespace)即文件系统文件目录的组织方式,是文件系统的重要组成部分,为用户提供可视化的、可理解的文件系统视图,从而解决或降低人类与计算机之间在数据存储上的语义间隔。目前树状结构的文件系统组织方式与现实世界的组织结构最为相似,被人们所广泛接受。因此绝大多数的文件系统皆以Tree方式来组织文件目录,包括各种磁盘文件系统(EXTx, XFS, JFS, Reiserfs, ZFS, Btrfs, NTFS, FAT32等)、网络文件系统(NFS, AFS, CIFS/SMB等)、集群文件系统(L原创 2010-11-07 18:57:00 · 14070 阅读 · 22 评论 -
磁盘IOPS计算与测量
IOPS (Input/Output Per Second)即每秒的输入输出量(或读写次数),是衡量磁盘性能的主要指标之一。IOPS是指单位时间内系统能处理的I/O请求数量,一般以每秒处理的I/O请求数量为单位,I/O请求通常为读或写数据操作请求。随机读写频繁的应用,如OLTP(Online Transaction Processing),IOPS是关键衡量指标。另一个重要指标是数据吞吐量(Throughput),指单位时间内可以成功传输的数据数量。对于大量顺序读写的应用,如VOD(Video On Dem原创 2011-01-28 18:30:00 · 43299 阅读 · 5 评论 -
分布式存储系统设计的若干原则
分布式存储系统设计中很多指标是不可得兼的,必须根据需求有所取舍。CAP理论、最终一致性、BASE理论、I/O五分钟法则、Amdahl定律和Gustafson定律、摩尔定律等,就是分布式存储系统设计的的几个经典的指导法则。原创 2011-02-20 16:06:00 · 39896 阅读 · 26 评论 -
文件系统文献推荐
非常好的文件系统阅读文献,研究存储和文件系统的不能不读的,其中的每一个文件系统都非常经典的,代表存储或者文件系统发展过程的里程碑。转载 2011-03-22 21:35:00 · 7117 阅读 · 7 评论 -
集群NAS技术架构
集群NAS是一种横向扩展(Scale-out)存储架构,具有容量和性能线性扩展的优势,已经得到全球市场的认可,集群NAS已经成为主流存储技术之一。这里主要剖析集群NAS的三种技术架构,并简单介绍了开源集群NAS解决方案。原创 2011-05-15 17:19:00 · 39286 阅读 · 23 评论 -
Lustre I/O性能特点与最佳实践
Lustre是面向集群的存储架构,它是基于Linux平台的开源集群(并行)文件系统,提供与POSIX兼容的文件系统接口。Lustre两个最大特征是高扩展性和高性能,能够支持数万客户端系统、PB级存储容量、数百GB的聚合I/O吞吐量。Lustre是Scale-Out存储架构,借助强大的横向扩展能力,通过增加服务器即可方便扩展系统总存储容量和性能。Lustre的集群和并行架构,非常适合众多客户端并发进行大文件读写的场合,但目前对于小文件应用非常不适用,尤其是海量小文件应用LOSF(Lots Of Small F原创 2011-05-30 22:36:00 · 31230 阅读 · 41 评论 -
深入理解数据压缩与重复数据删除
数据压缩与重复数据删除两种技术有何区别与联系呢?实际中又该如何正确应用呢?笔者之前对数据压缩原理和技术没有研究,因此做了点功课,查阅整理了相关资料,并与重复数据删除技术进行对比分析。原创 2011-04-14 20:29:00 · 26817 阅读 · 29 评论 -
如何区分分布式/集群/并行文件系统?
分布式文件系统、集群文件系统、并行文件系统,这三种概念很容易混淆,实际中大家也经常不加区分地使用。总是有人问起这三者的区别和联系,其实它们之间在概念上的确有交叉重叠的地方,但是也存在显著不同之处。原创 2011-04-22 23:26:00 · 25691 阅读 · 19 评论 -
冯.诺依曼体系结构对计算机发展的限制
<!--v/:* {behavior:url(#default#VML);}o/:* {behavior:url(#default#VML);}w/:* {behavior:url(#default#VML);}.shape {behavior:url(#default#VML);}--> Normal 0 7.8 磅原创 2009-11-09 22:29:00 · 10235 阅读 · 8 评论