数据存储
文章平均质量分 83
刘爱贵
中科院博士,TaoCloud首席科学家,专注软件定义存储,聚焦智能存储、分布式全闪存、信创存储方向。GlusterFS技术专家,长期从事存储领域研发工作,分布式存储资深理论研究与实践者。
展开
-
大话大道SDS存储
2003从中科院读研时进入分布式存储这一行当,没想一干就是20年,大道云行都八周年了。二十年来一直在想着存储这一件事情,总会有一些收获和感悟的。崭新的2023新年伊始,特别大话一下大道的那些存储产品。原创 2023-01-17 16:00:23 · 1808 阅读 · 0 评论 -
解析全闪对象存储
事实标准的对象存储源自AWS S3,基于HTTP/RESTful设计,原本就不是面向高性能应用场景。开源SDS对象存储,Ceph之外还有minio。时至今日,新应用新业务日新月异,SSD呈现全面普及应用的态势,高性能对象存储的需求日益凸显,特别是AI/HPC/HDPA场景。全闪存的对象存储需要变革,intel DAOS将对象存储推向高性能市场,是一个很好的参考。原创 2022-11-30 23:11:23 · 1174 阅读 · 0 评论 -
全闪SDS 2.0存储发展新趋势
新兴市场驱动、SSD成本不断降低、再有信创存储加持,全闪存储是市场发展必由之路,未来前景非常可期!原创 2022-11-02 14:49:40 · 1242 阅读 · 2 评论 -
iSCSI vs iSER vs NVMe-TCP vs NVMe-RDMA
iSCSIiSCSI(Internet Small Computer System Interface)是一种将流行的SCSI协议扩展到TCP/IP网络,从而创建了基于IP的存储局域网SAN的块存储协议,它也是大道云行FASS全闪软件定义存储内置支持的块存储协议之一。iSCSI具有非常坚实的基础:SCSI、TCP和IP,因此在过去20年内得到了极广泛的应用,现在很多操作系统以及Hypervisor都具有内置的支持。Linux Kernel 3.1版本在其内核态的Linux SCSI Target(一原创 2022-05-15 11:38:56 · 2386 阅读 · 0 评论 -
全闪分布式,如何深度性能POC?
全闪存储已经成为当前存储的新贵,从存储架构的演变角度,软件定义的分布式存储系统替代传统控制器架构的磁盘阵列已是大势所趋。采用分布式架构的全闪存储系统能充分发挥闪存介质的性能,并构建具备云属性的弹性基础设施,是未来全闪存储系统的发展方向。FASS是TaoCloud自研的全闪分布式块存储系统,产品正式发布以来进行了大量多种场景的POC测试,这里将对典型场景的POC测试进行多角度对比分析,用数据验证FASS在不同硬件配置环境下的优异性能表现。POC性能测试拓扑模型典型场景POC实测对比..原创 2020-12-25 13:19:28 · 1438 阅读 · 2 评论 -
全闪分布式块存储性能实测1000万IOPS!
Ceph性能数据来源:Redhat对Ceph 使用三星PM1725A进行的性能测试报告(查看性能测试视频)性能测试说明测试数据(简表)测试方法本次测试采用四台服务器作为存储节点搭建FASS,创建16个100GB双副本存储卷进行测试8客户端压力读写,每个客户端读写2个存储卷,使用Intel SPDK自带的perf工具进行性能测试perf工具命令样例:网络环境前端和后端网采用100Gbps IB网交换机,管理网采用10Gbps以太网交换机。前...原创 2020-11-29 10:36:40 · 3175 阅读 · 10 评论 -
突破硬件瓶颈(三):旧时代的遗珠——并行流水线架构
20年前,CPU的主流设计是流水线架构,增长流水线层级就可以提升性能。然而AMD的K8架构证明intel的发展方向是偏激的,它用更低的功耗和频率,战胜了使用31级流水线的Pentium 4 Intel被迫解散了NetBurst小组,承认了其失败,转而发展Core 2系列,借鉴了AMD将IMC加入CPU DIE的设计,大大加快内存的处理速度,解放了CPU性能。紧接着又转向了多核心处理器的研发,从单条流水线转向了并行流水线,打的AMD毫无还手之力。 十多年过去,截止目前的主流CP...原创 2020-10-07 13:38:48 · 1924 阅读 · 1 评论 -
Gluster集群管理小分析
开源分布式文件系统GlusterFS的集群管理系统GlusterD设计复杂,然而剖析其内部原理的参考文献极少,如果不熟悉源码,遇到问题解决难度比较大。本文的小目标是对GlusterD进行架构设计及代码层面的简析,深入了解GlusterD机制,从而帮助技术人员提高定位和解决问题的效率。1 GlusterD架构设计GlusterD作为GlusterFS的集群管理系统,其主要负责GlusterFS的集群信息管理,弹性卷管理,保证集群配置一致性,命令行操作,服务进程管理等。GlusterD部署于每一个存原创 2020-09-06 09:25:16 · 1571 阅读 · 0 评论 -
xSAN高可用—Gluster与SAN融合技术方案
在存储领域中,存储系统的高可用性一直是关注的重点。随着用户对于存储系统的可用性需求不断变化,高可用技术在不断发展演变。高可用的方案与技术,可分为如下三种:磁盘级的高可用这是指部分磁盘的损坏不影响集群的可用性。常用的实现方法有:RAID、SAN磁盘阵列。服务器级的高可用这是指单台服务器的失效,不影响整个系统的可用性。常用的实现方法为:双机热备;软件层面实现的数据副本(比如SDS中的多副本冗余策略)。共享级的高可用集群存储,通常都是通过共享协议的方式将其存储提供给用户,例如SMB、N原创 2020-08-20 16:01:07 · 1027 阅读 · 0 评论 -
裸金属云FASS高性能弹性块存储解决方案
相对于公有云模式,裸金属服务器为用户提供物理服务器的租赁服务,延续了物理机无损性能这一得天独厚的优势,能够同时满足核心应用场景对高性能及稳定性的严格要求。使用裸金属服务器客户资源独占,不用和其他客户共享CPU、内存等,性能可以得到充分挖掘。因为采用物理机级别的完全隔离,可提供更安全、可靠计算资源。裸金属服务器可实现不差于物理服务器的性能,同时可以实现资源的弹性扩展与使用,全自动化的运维管理,越来越受到金融证券、HPC等对业务性能、数据安全要求较高用户的欢迎。需求痛点裸金属云可以实现弹性和自动化.原创 2020-07-26 14:51:08 · 858 阅读 · 0 评论 -
突破硬件瓶颈(二):存储架构和协议瓶颈
The kernel isn’t the solution. The kernel is the problem. ——Robert Graham CEO of Errata SecurityLinux系统设计之初,采用了分级、分层设计方式,用户调用底层设备,需要切换到内核态,由系统进行调用,这种方式适合硬盘速度远低于CPU的场景。然而随着存储速度越来越快,以及网络存储的兴起,这种设计逐渐成为了存储的瓶颈。另外,本地硬盘协议,以及网络协议,也都成为了提高性能的绊脚石。本文是突破硬件瓶...原创 2020-06-21 10:45:37 · 1074 阅读 · 0 评论 -
突破硬件瓶颈(一):Intel体系架构的发展与瓶颈挖掘
软件定义存储SDS正在从容量型向性能型演进,千万级IOPS和微秒级低延迟,非常具有挑战性。3节点标准x86服务器,能否有可能实现1000万IOPS与200us低延迟?这个可以有。硬件性能并不是瓶颈所在,软件颠覆才是关键。想要取得如此强的性能,必须要有突破时下存储软件对于硬件利用的瓶颈。而要突破这些瓶颈,就需要对硬件有深入的了解,而后利用软件想方设法突破,或者绕过他们,实现性能的腾飞。本文是突破硬件瓶颈系列文章的第一篇,分析Intel体系架构带来的瓶颈。存储的性能越高,则对延迟越敏感,当.原创 2020-06-21 10:40:17 · 1445 阅读 · 0 评论 -
SDS发展小观察
1、SDS科普SDS(Software Defined Storage)即软件定义存储,简单地说就是将存储硬件和软件进行分离,采用标准化硬件作为载体(如X86架构),基于软件实现企业级存储功能和服务。相对于传统存储硬件盒子,SDS中存储软件成为了核心。SDS通常都是分布式存储,形式分为文件存储(POSIX/NFS/CIFS)、对象存储(S3)和块存储(iSCSI/iSER/NVMeoF)三种。SDS的兴起源于硬件的快速发展,CPU、网络、SSD等硬件成熟度、稳定性、性能不断提升,同时云计算对存储原创 2020-05-18 09:00:01 · 1984 阅读 · 1 评论 -
FASS全闪高性能文件网关解决方案
移动互联网、人工智能、5G、IoT等技术的发展,海量的终端催生了越来越高的业务性能需求,越来越多的文件业务场景要求被“加速”,以提供快速响应和高带宽访问。HDD存储设备已无法满足高IOPS、低延迟的业务需求,越来越多的企业数据中心开始选择全闪存的解决方案。据Gartner预计,到2020年数据中心50%的机械硬盘存储将被全闪存存储取代,应用于新数据时代的诸多业务场景。01 方案背景海...原创 2020-04-19 08:57:34 · 1563 阅读 · 0 评论 -
【译】利用uDepot获得快速NVM存储的性能
小Tao们在进行分布式全闪存文件系统的预研工作,从学术圈和工业界寻找灵感,发现这篇前沿文章,并翻译出来和大家学习分享。 “这是一篇KV存储技术方向中少见的讲述如何即高效又经济地使用快速闪存设备的文章,观点新颖,方法独特,参考和使用价值很高。” ——译者 摘要许多应用程序需要低延迟的KV存储,为了满足这一需求,通常使用基于DRAM后端的KV存储。然而,与传统的SSD相比,最...原创 2020-03-01 10:52:16 · 2181 阅读 · 3 评论 -
FASS分布式全闪存储技术白皮书
当前单块NVMe SSD性能可以达到100万IOPS,SSD硬盘与HDD机械硬盘有了天壤之别。传统存储的软硬件架构,都已经不再适合承载高速闪存介质,它们从根本上制约了新型存储介质的生产力。全闪存阵列已经逐步向全NVMe硬件转移,然而其扩展性与灵活性,在云计算时代始终是最大的瓶颈。分布式全闪存储系统在全闪存介质配置的基础上,采用了标准的硬件平台、高效的新兴存储协议、极致的软件优化,可提供更简单经济、...原创 2019-12-17 14:26:18 · 5729 阅读 · 4 评论 -
GlusterFS性能优化-让目录飞
根据IDC预测2020年全球数据量将达到44ZB,其中80%来自于非结构化数据的贡献。随着云计算、大数据、物联网、AI、5G等技术的发展应用,可快速扩展的基础架构成为必需,这些需求推动了软件定义存储(SDS)的增长。2018年中国软件定义存储市场需求场景中,文件存储仍然是主力,占比高达62.3%。在诸多分布式文件系统中,GlusterFS以其简约的架构设计,完善的协议支持,无中心节点、全局统...原创 2019-12-08 15:15:41 · 4683 阅读 · 0 评论 -
存储洞察:从技术到市场
追溯到2003年,算起来踏入存储行业已经超过15年,从存储学习到工作,从存储学术到产品,从存储技术到市场,从存储职场到创业,估且算是一名存储老兵了。数据很重要,但存储在中国境遇却很尴尬,因为敬畏很多企业不敢涉足,而且国内还没有一家真正意义上成功的存储厂商。创业这么几年以来,经常会被提问各种尖锐深刻的问题,包括来自技术圈、学术圈、营销圈、投资圈等,在深度思考这些问题的同时,对存储的认知也在不断升级...原创 2019-10-23 20:07:27 · 6245 阅读 · 0 评论 -
C程序中的存储分配
C程序中的存储分配(刘爱贵 - Aiguille.LIU) C程序设计中,经常需要使用malloc/free动态管理内存,在需要的时候向操作系统申请空间,适合的时候释放不再使用的空间。那么,C库中malloc/free是如何实现的呢?参考"The C Programming Language",我们设计了自己的存储分配程序。 由于程序中某些地方可能不通过malloc调用申请空间,因此,ma原创 2008-04-12 17:55:00 · 3178 阅读 · 4 评论 -
散列表设计
散列表设计(刘爱贵 - Aiguille.LIU)1、基本概念 散列表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。2、常用的构造散列函数的方法 散列函数能使对一个数据序列的访问过程更加迅速有效,通过散列函数,数原创 2008-04-14 13:09:00 · 5786 阅读 · 6 评论 -
磁盘碎片
磁盘碎片,更确切地应该称为文件系统碎片。按照引文(1)的linux官方资料,可分为外部碎片(external fragmentation)和内部碎片(internal fragmentation)。 内部碎片是怎么产生的呢? 我们知道,文件系统以簇(cluster)作为基本存储单位来组织数据的。假设簇大小为4KB,一个大小不足1KB的文件也至少要分配一个簇,即4KB的空间,这就浪费了大约3原创 2009-01-11 13:34:00 · 2872 阅读 · 3 评论 -
Windows性能计数器
一、性能计数器概述 性能监视,是Windows NT提供的一种系统功能。Windows NT一直以来总是集成了性能监视工具,它提供有关操作系统当前运行状况的信息,针对各种对象提供了数百个性能计数器。性能对象,就是被监视的对象,典型例子有Processor、Process、Memory、TCP/UDP/IP/ICMP、PhysicalDisk等。计数器通常提供操作系统、应用程序、服务、驱动程序等的原创 2009-03-30 21:03:00 · 20887 阅读 · 5 评论 -
IDC存储软件定义的七个主要类别
在DoStor上看到一篇文章,提到IDC存储软件定义的七个主要类别:1、数据备份与恢复2、归档软件3、复制软件4、存储管理软件5、存储设备管理软件6、存储基础架构软件7、文件系统软件 对号入坐,我在学习和工作中涉及了其中的1、2、3、7,4、5、6有所涉及,但深度和范围很有限。原创 2009-07-29 09:50:00 · 2583 阅读 · 0 评论 -
KMP算法深度解析
摘要:KMP算法是字符串匹配的经典算法,由于其O(m+n)的时间复杂度,至今仍被广泛应用。大道至简,KMP算法非常简洁,然而,其内部却蕴含着玄妙的理论,以至许多人知其然而不知其所以然。本文旨在解开KMP算法的内部玄妙所在,希望能够有助于学习与理解。 1、KMP算法 一种改进的字符串匹配算法,由D.E.Knuth与V.R.Pratt和J.H.Morris同时发现,因此称之为KMP算法原创 2009-08-04 22:59:00 · 68627 阅读 · 40 评论 -
快照(Snapshot)技术发展综述
快照(Snapshot)技术发展综述刘爱贵 摘要:传统数据备份技术存在备份窗口、恢复时间目标RTO和恢复时间点RPO过长的问题,无法满足企业关键性业务的数据保护需求,因此产生了数据快照技术。本文对快照技术的概念、特点、实现技术和发展现状进行了概括性阐述,并对其未来的发展进行了展望。关键词:快照,备份,复制,镜像,写时复制,指针重映射作者简介:刘爱贵,研究方向为网络存储、数据挖掘和分原创 2009-08-28 19:58:00 · 25523 阅读 · 13 评论 -
RAID技术发展综述
<!--v/:* {behavior:url(#default#VML);}o/:* {behavior:url(#default#VML);}w/:* {behavior:url(#default#VML);}.shape {behavior:url(#default#VML);}--><!-- /* Style Definitions */ table.原创 2009-09-22 23:07:00 · 13948 阅读 · 7 评论 -
网络存储的基本常识
转载:http://storage.doit.com.cn/article/2009/1027/5789801.shtml 过去十年来,我们在数据存储技术上的讨论已经发生了很大的变化,因此,下面我将概括地介绍有关网络存储的基本常识。网络存储和网络连接的系统相比并没有多少不同。网络存储具有在网络上提供存储服务的能力。只要你可以将至少两台机器连接在一起,你就可以将服务器和存储连接在转载 2009-10-28 12:26:00 · 2826 阅读 · 0 评论 -
Linux下的文件系统大全
Source: http://www.linuxlinks.com/Kernel/File_Systems/ Accessfsa permission filesystem for linuxActive Block I/O Scheduling System The转载 2009-11-15 23:14:00 · 6054 阅读 · 0 评论 -
ZFS十大最佳功能
Source:http://tech.sina.com.cn/b/2009-11-30/09223635032.shtml Sun在2005年推出了开源文件系统ZFS,最初Sun是为OpenSolaris设计的,随着时间的发展,用户逐渐发现其一些良好的功能,下面列举的ZFS十大功能,是ZFS支持者通过这些年应用体会出来的。 以下是ZFS支持者认为ZFS具备的十大最佳功能特性:转载 2009-11-30 09:43:00 · 3837 阅读 · 0 评论 -
中继器 集线器 网桥 交换机 路由器 网关
Source: http://blog.donews.com/littlechen/archive/2005/10/10/582975.aspx不同层次的网络连接设备1、物理层:中继器(Repeater)和集线器(Hub)。用于连接物理特性相同的网段,这些网段,只是位置不同而已。Hub 的端口没有物理和逻辑地址。2、逻辑链路层:网桥(Bridge)和交换机(Sw转载 2009-12-05 16:14:00 · 2939 阅读 · 0 评论 -
FCIP vs iFCP
iFCP(Internet Fibre Channel, Internet 光纤信道协议)是一种网关到网关的协议,为 TCP/IP 网络上的光纤设备提供光纤信道通信服务。iFCP的工作原理是:将Fibre Channel数据以IP包形式封装,并将IP地址映射到分离Fibre Channel设备。由于在IP网中每类Fibre Channel原创 2009-12-04 17:27:00 · 8606 阅读 · 0 评论 -
RAID级别简介
RAID0(Stripping): 至少需要2块盘 RAID1(Mirror): 需要2块盘 RAID10(Mirror, Stripping): 至少需要4块盘,并且是偶数个 RAID5(Distributed Parity Data): 至少需要3块盘 RAID50(Distributed Parity Data, Stripping): 至少需要6块盘, 并且是偶数个. 扩容原创 2010-02-23 19:46:00 · 3064 阅读 · 0 评论 -
从研发角度谈存储技术的学习
对于研发人员,存储技术的学习内容非常之多。我根据自己的理解,把它们大致分为以下8项内容:1、系统管理:UNIX/Linux/Windows操作系统管理,要求熟悉甚至精通。2、开发技术:C/C++,网络编程,多进程/多线程,进程间通信。如果能掌握内核开发、驱动程序开发则更佳。3、存储基础:磁盘、RAID阵列、文件系统等存储相关硬件和软件的安装、配置、调试。4、存储系统:RAID,原创 2010-02-28 15:36:00 · 10208 阅读 · 5 评论 -
“重复数据删除”技术的十大问题
1,到底什么是“重复数据删除(Deduplication)”技术 简单地说,就是在通过网络传输或存储数据时,不传送或存储多份相同数据,以减少对网络带宽和存储空间的占用。实际上以前的SIS(单实例存储)就是一种Dedu技术,但是它去重的单位是文件。现在流行的Deduplication技术通过是以数据块为单位的,去重效果会更好,实现起来复杂程度也更高一些。这些技术用在数据备份领域效果最转载 2009-12-22 23:09:00 · 4688 阅读 · 0 评论 -
匿名无须交互输入用户名和密码的samba配置方法(security = user)
NAS(Network Attached Storage),网络附加存储需要支持NFS(Network File System)和CIFS(Common Internet File Sysem)一种或两种文件共享访问协议。NAS的配置方法相对都比较简单,这方面的资料很多,后面附录了NFS和CIFS的配置参数介绍。这里主要解决一个在配置CIFS的遇到的问题。 CIFS需求:Securit原创 2009-12-25 21:44:00 · 43549 阅读 · 1 评论 -
存储学习之路
从学生时做研究时起,我就算进入了存储领域,那时我的研究方向是网络存储、分布式计算,业余还研究点数据挖掘。毕业后进入存储行业的公司,差不多又有两年的时间了。前后算起来,我搞存储也有好几年的时间了,然而存储博大精深,我现在仍然行走在存储学习之路上。不过,我觉得自己还是有些东西(或者可以称之为经验)与存储同行分享一下,如果能对那么几个人有所帮助,我就觉得值得了。 0、存储入门 领路人的原创 2010-03-11 11:37:00 · 13704 阅读 · 9 评论 -
WSIO - 基于WEB服务的远程文件I/O
WSIO - 基于WEB服务的远程文件I/O团队名称:IHEPer作者:刘爱贵 电子邮箱:liuag@ihep.ac.cn 单位:中科院高能物理研究所 计算中心 PDF下载:http://download.csdn.net/source/2143070摘要WSIO是一个基于Web Service技术实现的、与POSIX标准兼容的文件I/O,实现了存储系统的远程原创 2010-03-19 11:48:00 · 16066 阅读 · 14 评论 -
基于Dedup的数据打包技术
基于Dedup的数据打包技术作者简介 :刘爱贵,研究方向为网络存储、数据挖掘和分布式计算;毕业于中科院,目前从事存储软件研发工作。 Email: Aigui.Liu@gmail.com注: 作者学识和经验水平有限,如有错误或不当之处,敬请批评指正。 0、引言 Tar, winrar, winzip是最为常见的数据打包工具软件,它们把文件集体封装成一个单独的数据包,从而原创 2010-01-09 20:39:00 · 12136 阅读 · 17 评论 -
Linux文件系统性能优化
由于各种的I/O负载情形各异,Linux系统中文件系统的缺省配置一般来说都比较中庸,强调普遍适用性。然而在特定应用下,这种配置往往在I/O性能方面不能达到最优。因此,如果应用对I/O性能要求较高,除了采用性能更高的硬件(如磁盘、HBA卡、CPU、MEM等)外,我们还可以通过对文件系统进行性能调优,来获得更高的I/O性能提升。总的来说,主要可以从三个方面来做工作:1、Disk相关参数调优原创 2010-04-13 17:49:00 · 12212 阅读 · 0 评论 -
Linux文件系统选择
通过综合使用多种标准文件系统Benchmarks对Ext3, Ext4, Reiserfs, XFS, JFS, Reiser4的性能测试对比,对不同应用选择合适的文件系统给出以下方案,供大家参考。文件系统性能测试数据见附表。1、大量小文件(LOSF, Lost of small files)I/O应用(如小图片)Reiserfs(首选), Ext4文件系统适合这类负载特征,IO调度算原创 2010-04-23 16:36:00 · 15470 阅读 · 3 评论