- 博客(201)
- 资源 (21)
- 收藏
- 关注
原创 GlusterFS文件系统弹性哈希算法
GlusterFS采用独特的无中心对称式架构,无需专用的元数据服务集群,使用DHT算法进行文件分布和定位。本文深入剖析GlusterFS文件系统弹性哈希算法。
2017-04-18 00:45:00 7866 5
原创 MaxIO智能缓存加速技术
MaxIO是一款SSD智能缓存加速软件,能够透明对传统存储进行性能加速。本文是MaxIO的技术白皮书,重点剖析其架构原理,并对MaxIO特性和局限性作了简要阐述。
2017-02-05 20:17:48 7360 4
原创 无交换机实现集群网络互联
分布式集群中对于高性能网络的需求日益增强,尤其是存储集群,对于数据交换的网络带宽、延迟等要求更高。而对于超小规模集群(三节点、四节点等),万兆交换机的使用严重地增加了TCO。这成为了一些小微型企业小规模集群建设的一个门槛。这里对无交换机实现集群网络互联进行了一些简单的探索。
2017-01-04 23:28:08 5424
原创 SSAN高可用双机技术
通常情况下SSAN分布式块存储集群建议3个节点起配,然而一些客户出于应用规模和降低成本考虑,尤其是SMB中小企业客户,两个节点的SSAN高可用集群方案是否可行呢?这个是必须行的。SSAN高可用双机技术方案,采用双副本冗余策略,iSCSI多路径采用两条路径,这里主要讨论管理节点高可用和zookeeper集群高可用方案,同时简要介绍基于Ansible的SSAN集群自动化部署。
2016-10-25 22:14:09 7101
原创 超融合架构真的完美吗?
超融合架构的优势和客户价值这个已经勿容置疑,各个厂商和媒体已经成功地帮客户洗脑了,和客户交流不提超融合都俨然被认为落伍,这里不用也不想再赘述。从辩证角度看,任何事物都不可能是完美的,超融合是不是也存在一些问题或局限性呢?超融合有适用场景,但肯定不是普遍适用的。因此,这篇文章想换一个角度来看超融合,找找茬,梳理一下超融合,也算是为大家选择超融合架构方案提供一个参考。容器这么火,不谈好像也不大好,最后简单胡侃一下容器超融合。
2016-07-01 00:12:48 93762 6
原创 TaoCloud SSAN+VMWare vSphere超融合解决方案
VSAN那么好,用户还会考虑其他存储方案吗?VMWare vSphere是业界领先的虚拟化平台,VSAN是一种新型的分布式软件定义存储,vSphere+VSAN可谓是完美的虚拟化整体解决方案。但是,永远不要低估用户的诉求,只要存在较大的实际动力,在一些特定的场景下,用户就会主动寻求替换VSAN的存储解决方案。TaoCloud SSAN就是其中一种绝好的替换VSAN方案。SSAN是典型的分布式块存储,SSAN+vSphere这两者计算存储超融合可提供一体化的虚拟化/私有云解决方案,同样可以帮助客户获得更好的高
2016-06-05 17:15:07 21059 6
原创 TaoCloud SSAN+oVirt系虚拟化解决方案
TaoCloud SSAN是分布式块存储产品,oVirt是Redhat的开源IaaS平台,这两者计算存储融合可提供一体化的虚拟化/私有云解决方案,帮助客户获得更好的高性能、高可用、扩展性、业务连续性、简化管理、更低的整体成本。本文档介绍TaoCloud SSAN + oVirt的融合解决方案,重点阐述方案架构、系统部署、功能测试、高可用测试、性能测试等内部,从而为技术人员进行POC测试或系统实施提供参考。
2016-05-30 20:21:45 16742
原创 GlusterFS分布式文件系统快速管理
TaoCloud XDFS基于GlusterFS开源分布式文件系统,进行了系统优化、工程化、定制化和产品化工作,五年以上的实践积累了大量实践经验,包括客户案例、最佳实践、定制开发、咨询服务和技术培训。XDFS推崇KISS大道至简的哲学,从架构到使用、管理都很简便。
2016-02-27 00:29:40 13148 6
原创 一位SDS创业者眼中的Ceph
近来有不少朋友征求我对Ceph的看法,那我就简单客观地评价一下,如有不妥还请斧正。说实话,我不太喜欢Ceph的复杂性,我喜欢KISS原则的简单系统,比如GlusterFS。但Ceph的确是个好东西,我们在产品研发设计也参考了不少它的设计思想、算法和源码。CEPH优点(选择CEPH的理由):1、开源系统,免费,初始成本低;2、统一存储架构(Block/File/Object),存储特
2015-11-29 23:52:30 10593 2
原创 Gluster libgfapi接口和应用实例
1、GlusterFS Libgfapi接口简介众所周知,GlusterFS分布式文件系统最为常用的访问接口是Native协议接口,即基于FUSE实现的POSIX兼容接口。这种接口相对于NAS访问接口,性能较好,而且对传统应用或遗留系统具有良好的适用性,应用程序不需要做任何修改。之前的NAS访问协议,比如CIFS、NFS、FTP,也都是在FUSE接口基础上通过增加一层NAS服务来实现相应功能,
2014-08-08 19:04:36 16491 37
原创 Server SAN:云计算时代的弄潮儿
4月30日,Redhat宣布1.71亿美元收购Ceph开发商Inktank公司,加上之前2011年10月1.36亿美元收购的Gluster,Redhat已经将两大著名的开源分布式文件系统纳入旗下。5月17日,最后一台小型机在阿里巴巴支付宝下线,标志着阿里已经完成“去IOE化”。随后国内互联网以及有技术实力的公司,掀起了一场去IOE(以IBM, Oralce, EMC为代表)化运动,通过开源解决方案
2014-07-07 23:46:45 12034 2
原创 换个角度深入理解GlusterFS
GlusterFS不是一个完美的分布式文件系统,这个系统自身也有许多不足之处,包括众所周知的元数据性能和小文件问题。没有普遍适用各种应用场景的分布式文件系统,通用的意思就是通通不能用,四大开源系统不例外,所有商业产品也不例外。每个分布式文件系统都有它适用的应用场景,适合的才是最好的。这一次我们反其道而行之,不再谈GlusterFS的各种优点,而是深入谈谈GlusterFS当下的问题和不足,从而更加深入地理解GlusterFS系统,期望帮助大家进行正确的系统选型决策和规避应用中的问题。同时,这些问题也是Glu
2014-03-10 18:23:25 27791 60
原创 GlusterFS性能调优基本思路
基于GlusterFS构建的集群NAS系统是一个复杂的系统工程,其整体性能表现与特定应用特征、硬件和软件配置等息息相关。系统部署时,如果性能与估算或经验值相差较大,则需要根据实际情况进行性能调优。根据Gluster系统组成,性能调优主要从硬件、OS系统和GlusterFS文件系统三大部分着手,通过测试和实验分析得出影响性能的关键点,然后有针对性的实施调优方法。导致性能问题的典型情景有如下几种:
2014-01-08 23:15:04 14473 12
原创 对象存储(Object-based Storage)概述
什么是对象存储?多次在不同场合被问起这个问题,于是就想写篇小综述文章。网上查找资料时,找到几篇不错的资料,不想做重复工作,简单整理一下,供自己和大家参考。什么是对象存储(OSD)?存储局域网(SAN)和网络附加存储(NAS)是目前两种主流网络存储架构,而对象存储(Object-based Storage)是一种新的网络存储架构,基于对象存储技术的设备就是对象存储设备(Object-ba
2014-01-08 00:03:04 35852 10
原创 Gluster常见故障处理和HOWTO资源
Gluster常见故障处理方法,根据官方Troubleshooting文档汇编而成,供大家解决Gluster问题参考,同时罗列了一些GlusterFS进阶话题HOWTO资源。欢迎各位同学补充,共同研究Gluster原理并分享应用经验。Q1:Gluster需要占用哪些端口?Gluster管理服务使用24007端口,Infiniband管理使用24008端口,每个brick进程占用一个
2013-12-25 18:33:05 29782 52
原创 GlusterFS 4.0开发计划解读
GlusterFS社区最近给出了4.0的开发计划,其目标是对3.x版本在扩展性和易操作性方面作出重大改进,支持10K节点的集群扩展能力。为此,GlusterFS将在系统架构、控制平面和数据平面的内部机制、命令行工具和接口等方面作全新的重构,以实现更大的扩展性和易用性,期望使得GlusterFS成为倍受用户青睐的分布式文件系统。
2013-12-14 08:52:53 11949 11
原创 海量小文件问题综述
海量小文件LOSF问题是工业界和学术界公认的难题,分析了LOSF问题的由来以及典型的应用场景,并简要阐述了当前文件系统在LOSF优化方面的进展。重点分析LOSF问题的根本原因,并给出具体的优化方法和策略,期望对LOSF问题的研究和优化实践提供一定的理论指导。
2013-08-15 12:13:51 34867 12
原创 集群存储高可用方法
云存储和大数据背景下,数据呈现爆炸式增长趋势。根据研究显示,2020年数字宇宙将达到35.2 ZB,比2009年的0.8 ZB猛增44倍,这其中80%以上为非结构化数据。高性能计算、医学影像、石油和天然气勘探、数字媒体和社会化WEB等大量数据密集型应用导致数据的井喷,不断对存储方法提出新的严峻挑战。集群存储是一种横向扩展(Scale-out)存储架构,具有容量和性能线性扩展的优势,已经得到市场的广
2013-05-03 22:15:20 16793 5
原创 设计新Xlator扩展GlusterFS
1. GlusterFS概述GlusterFS是一个开源的分布式文件系统,具有强大的Scale-Out横向扩展能力,通过扩展能够支持数PB存储容量和处理数千客户端。GlusterFS借助TCP/IP或InfiniBand RDMA网络将物理分布的存储资源聚集在一起,使用单一全局命名空间来管理数据。GlusterFS基于可堆叠的用户空间设计,可为各种不同的数据负载提供优异的性能。Glus
2012-07-25 20:16:18 15363 17
原创 换个角度思考大数据
什么是大数据?IDC的权威定义为:满足4V(Variety, Velocity, Volume, Value,即种类多、流量大、容量大、价值高)指标的数据称为大数据。IDC对大数据技术的定位为:通过高速捕捉、发现和/或分析,从大容量数据中获取价值的一种新的技术架构。大数据主要涉及两个不同的技术领域:一项致力于研发可以扩展至PB甚至EB级别的大数据存储平台;另一项则是大数据分析,关注在最短时间内处理
2012-07-15 21:16:05 10932 4
原创 一位老码农的编程简史
话说前些日子在微博上看到一个“10年码龄的老码农”QQ群,掐指一算自己从95年接触计算机编程似乎也达到这个标准了,于是突然来了兴致就加入了这个群。这个群真可谓藏龙卧虎,从DOS时期的第一代程序员,到Windows时期的第二代程序员,再到目前互联网时期的第三代程序员,很多重量级的大牛都云集与此,比如简晶、蒋涛、周爱民,会员数在一周内已经达到250人以上,码龄最长的高达25年。看着一帮前辈和同道者们谈
2012-03-10 23:17:15 47064 55
原创 一位存储研发者的图书清单
所谓“行千里路,读万卷书”,读书应该算作是最好的学习方式。本人有个不好的习惯,就是不大喜欢看电子书,小论文也喜欢打印出来研读,图书就更不用说了,总是喜欢买书和藏书,尤其是经典图书。时间一久,书架上堆积满了琳琅满目的各种图书,心中突然有种莫名的满足感。闲暇之余,对杂乱无章的书架搞了一下整理工作,顺便选择了其中一部分杂凑成这个图书清单,期望给正在学习之路上的同学们提供一点参考。这个图书清单分为五个类别
2012-02-26 14:39:37 21241 59
原创 分布式文件系统测试方法与测试工具
非结构化数据、大数据、云存储已经毫无争议地成为了信息技术发展趋势和热点,分布式文件系统作为核心基础被推到了浪潮之巅,广泛被工业界和学术界热推。现代分布式文件系统普遍具有高性能、高扩展、高可用、高效能、易使用、易管理等特点,架构设计的复杂性使得系统测试也非常复杂。从商业产品ISILON, IBRIX, SONAS, Filestore, NetApp GX, Panasas, StorNext, B
2012-02-07 21:55:34 23016 41
原创 基于开源软件构建高性能集群NAS系统
大数据时代的到来已经不可阻挡,面对数据的爆炸式增长,尤其是半结构化数据和非结构化数据,NoSQL存储系统和分布式文件系统成为了技术浪潮,得到了长足的发展。非结构化数据目前呈现更加快速的增长趋势,IDC研究报告分析指出,到2012年非结构化数据将占到数据存储总量的80%以上。集群NAS是一种横向扩展(Scale-out)存储架构,具有容量和性能线性扩展的优势,已经得到全球市场的认可。从EMC对ISI
2011-12-29 22:32:33 35121 98
原创 Glusterfs Rebalance简析
Glusterfs RebalanceGlusterFS的哈希分布是以目录为基本单位的,文件的父目录利用扩展属性记录了子卷映射信息,子文件在父目录所属存储服务器中进行分布。由于文件目录事先保存了分布信息,因此新增节点不会影响现有文件存储分布,它将从此后的新创建目录开始参与存储分布调度。这种设计,新增节点不需要移动任何文件,但是负载均衡没有平滑处理,老节点负载较重。GlusterFS在设计中考虑
2011-12-20 15:09:54 12123 16
原创 Glusterfs全局统一命名空间
全局统一命名空间Glusterfs采用了全局统一命名空间设计,将磁盘和内存资源聚集成一个单一的虚拟存储池进行管理,并在此命名空间中使用NFS/CIFS等标准协议来访问应用数据。与其他分布式文件系统有所不同的是,GlusterFS中没有专用的元数据服务器,而是独特地采用无元数据服务的设计,取而代之使用算法来定位文件,元数据和数据没有分离而是一起存储。这使得数据访问完全并行化,从而实现真正的线性性
2011-12-02 21:20:19 10805 18
原创 创建Glusterfs分布式RAID10卷
Glusterfs3.2.4/5支持五种Volume,即Distribute卷、Stripe卷、Replica卷、Distribute stripe卷和Distribute replica卷,这五种卷可以满足不同应用对高性能、高可用的需求。(1)distribute volume:分布式卷,文件通过hash算法分布到brick server上,这种卷是glusterfs的基础和最大特点;(
2011-11-24 21:34:03 20739 9
原创 相似数据检测算法
相似数据检测算法对给定的一对数据序列计算两者之间的相似度([0,1], 1表示完全相同)或距离([0, ), 0表示完全相同),从而度量数据之间的相似程度。相似数据检测在信息科学领域具有非常重要的应用价值,比如搜索引擎检索结果的聚类与排序、数据聚类与分类、Spam检测、论文剽窃检测、重复数据删除、Delta数据编码等应用。正是由于它的重要性,近年来成为了研究的重点,不断有新检测方法涌现并得到评估。
2011-10-22 22:21:40 22132 33
原创 分布式文件系统元数据服务模型
随着非结构化数据的爆炸,分布式文件系统进入了发展的黄金时期,从高性能计算到数据中心,从数据共享到互联网应用,已经渗透到数据应用的各方各面。对于大多数分布式文件系统(或集群文件系统,或并行文件系统)而言,通常将元数据与数据两者独立开来,即控制流与数据流进行分离,从而获得更高的系统扩
2011-09-05 12:05:38 15831 21
原创 HASHDB:一个简单的KeyValue存储系统原型
1、HashDB是什么?HashDB是一个简单的KeyValue存储系统原型,提供基本的二元组的数据存储与读取功能,亦即当前被广为推崇的NoSQL存储系统。最初想到设计这个小系统,完全是出于偶然。本人维护着一个轻量级的开源重复数据删除小工具deduputil,它基于块级对文件目录
2011-08-08 22:31:09 17103 33
原创 深入理解Bloom Filter
Bloom Filter是1970年由Bloom提出的,最初广泛用于拼写检查和数据库系统中。近年来,随着计算机和互联网技术的发展,数据集的不断扩张使得 Bloom filter获得了新生,各种新的应用和变种不断涌现。Bloom filter是一个空间效率很高的数据结构,它由一个位
2011-07-13 12:40:43 13689 8
原创 关于Gluster稳定性的一个BUG
这一段时间一直在研究Gluster集群文件系统,其技术架构和大原理请参考前面的一篇文章“Gluster集群文件系统研究”。为了验证其所声称的高扩展、高可用、高性能的特点,我部署了一个较大规模的测试环境,4个I/O节点(即brick servers,DELL R
2011-07-06 15:41:55 9952 20
原创 pNFS实验环境部署
什么是pNFS?pNFS是并行网络文件系统,即NFSv4.1,与NFSv3不同的是,它将元数据与数据进行分离,允许客户端直接与数据服务器进行交互。这种机制解决了传统NFS的性能瓶颈问题,从而使得系统获得高性能和高扩展性的特性。pNFS支持多种协议(Block[FC], Object[OSD], Files[NFS])直接访问数据,需要对客户端功能进行扩展以支持不同的layout(LAYOUT4_F
2011-06-19 17:13:00 24174 28
原创 Lustre I/O性能特点与最佳实践
Lustre是面向集群的存储架构,它是基于Linux平台的开源集群(并行)文件系统,提供与POSIX兼容的文件系统接口。Lustre两个最大特征是高扩展性和高性能,能够支持数万客户端系统、PB级存储容量、数百GB的聚合I/O吞吐量。Lustre是Scale-Out存储架构,借助强大的横向扩展能力,通过增加服务器即可方便扩展系统总存储容量和性能。Lustre的集群和并行架构,非常适合众多客户端并发进行大文件读写的场合,但目前对于小文件应用非常不适用,尤其是海量小文件应用LOSF(Lots Of Small F
2011-05-30 22:36:00 31230 41
原创 集群NAS技术架构
集群NAS是一种横向扩展(Scale-out)存储架构,具有容量和性能线性扩展的优势,已经得到全球市场的认可,集群NAS已经成为主流存储技术之一。这里主要剖析集群NAS的三种技术架构,并简单介绍了开源集群NAS解决方案。
2011-05-15 17:19:00 39286 23
原创 StorNext海量小文件性能测试与调优
StorNext是一款完全针对SAN共享环境设计的并行文件系统,主要特点是高性能数据速率和大容量,它能充分发挥存储系统硬件的性能。它特别适用于高性能工作流和归档之类的大数据块连续访问的应用,在媒体、广电、石油、高性能计算、IPTV、制造业等行业中被广泛使用。海量小文件(LOSF,Lots of Small Files)是非常特殊的一类应用,目前业界的文件系统以及分布式文件系统在LOSF应用上表现较差。本次测试主要目标是获取StorNext在这种应用场景下的性能表现,并有针对性地进行了调优,以验证能否真正满足
2011-04-29 20:54:00 16616 20
原创 如何区分分布式/集群/并行文件系统?
分布式文件系统、集群文件系统、并行文件系统,这三种概念很容易混淆,实际中大家也经常不加区分地使用。总是有人问起这三者的区别和联系,其实它们之间在概念上的确有交叉重叠的地方,但是也存在显著不同之处。
2011-04-22 23:26:00 25690 19
原创 深入理解数据压缩与重复数据删除
数据压缩与重复数据删除两种技术有何区别与联系呢?实际中又该如何正确应用呢?笔者之前对数据压缩原理和技术没有研究,因此做了点功课,查阅整理了相关资料,并与重复数据删除技术进行对比分析。
2011-04-14 20:29:00 26817 29
新一代全闪SDS存储系统技术架构
2020-12-11
TaoCloud FASS 技术白皮书 v1.9.pdf
2020-04-19
闪存技术与应用方法-刘爱贵
2015-09-22
GlusterFS 101培训课程
2013-12-02
RAID 技术发展综述
2009-09-22
快照(Snapshot)技术发展综述
2009-08-28
Introduction to DHT
2008-03-28
数据挖掘教程
2008-03-27
Survey of Clustering Algorithms
2008-03-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人