【先锋】七牛云存储:三年磨一剑及背后核心技术解析

摘要:国内外涉足云存储产品巨头很多,但专注在这个领域的公司非常少之又少,七牛便是一家。成立三年、服务超过15万家企业和开发者用户,核心团队来自金山、盛大云、百度等公司的七牛云存储正在用技术和服务赢得客户。

谈及七牛的定位,七牛云存储CTO韩拓表示当下IssS和PaaS的边界已经模糊化,客户变得更加理性,他们更加关注云存储产品带给他们的实际价值。 在这样的市场态势下,七牛以数据为自己的核心价值,并围绕数据这个主题为企业提供丰富的周边功能,如上传下载CDN加速、数据处理、分析、自定义计算平台等业务。

从2011年成立以来,七牛目前累计拥有15万企业和开发者客户,而谈到七牛的优势,他表示对业务的专注、雄厚的技术实力、独特的产品风格以及良好的服务意识是七牛成功的关键。七牛目前的100多名员工中,技术岗位占一半以上,核心技术团队来自金山、盛大云、百度等公司,其多数据中心的广域网分布式架构,双数据中心间的互备,低成本、高可用性的冗余算法等核心技术都是七牛在云存储领域不断打磨、优化而来,他坦言,七牛自成立三年以来,可以说只做了一件事那就是存储。本文来自对韩拓的采访整理。

 

七牛云存储CTO 韩拓

七牛的团队、定位、用户规模

CSDN:首先介绍下自己和七牛,目前的技术团队情况?

韩拓:我2007年毕业后的第一份工作在金山软件,进入当时刚刚成立的金山实验室,主要参与分布式存储系统的研究和实践。2008年金山开始金山快盘项目,我带领存储团队主导了快盘第一版存储系统的设计、研发与上线。之后我到上海,加入一个网络游戏的创业团队,全面参与游戏服务端架构、开发和3D渲染方面的工作。2011年七牛云存储成立,我有幸在创业之初加入,参与七牛云存储的产品设计、研发和运维,并在七牛工作至今。

七牛目前有100多名员工,技术岗位占一半以上,按产品和职能分为10余个部门,核心技术团队来自金山云、盛大云、百度等公司。从创业至今七牛已经走过3年,这3年里我们打造了国内领先的云存储产品,得到了15万的企业和开发者的信任,并成为他们的云存储提供商,日上传文件数亿个,独立的活跃IP数已经覆盖了中国一半的网民。

CSDN:你觉得目前国内外云存储市场态势是什么样的?七牛在其中的定位是什么?

韩拓:自Amazon推出AWS产品以来,云存储的市场一直在快速发展,随着云存储产品易用性和品质的不断提升、成本的不断下降,已有越来越多的企业选择使用云存储构建自己的业务,或使用云存储替代原有的传统存储方案,尤其在最近1年,随着传统行业的互联网化,我们观察到云存储的市场容量在非常迅速的扩大,我们相信随着这波变革的浪潮,云存储的市场会到达爆发的临界点。

从产品来说,云存储的产品形态发展到今天,与2007年左右这个概念刚刚兴起时已有很大不同,一方面市场上出现了很多基于云存储的PaaS产品,让开发者可以更便利的使用云存储,另一方面IaaS厂商也在不断上浮,推出了很多更有针对性、更垂直化的产品,从今天的市场态势看,IssS和PaaS的边界已经模糊化,客户也变得更加理性,他们更加关注云存储产品带给他们的实际价值,这些都是云存储真正落地,成为全球范围被广泛认可的IT基础设施的信号。

在这样的市场态势下,七牛以数据为自己的核心价值,并围绕数据这个主题为企业提供丰富的周边功能,如上传下载CDN加速、数据处理、分析、自定义计算平台等业务,接管数据产生、上传、存储、处理分析、下载等全部流程,力求为企业提供全生命周期的数据管理服务。

七牛的产品应用场景非常广泛,可以说所有涉及到非结构化数据存储的场景都可以使用七牛,如图片、视频类的APP、静态网站或网站的静态数据、UGC类的业务、在线教育、视频监控、直播、SNS、音乐类业务、备份和冷数据存储、网盘等等。

CSDN:七牛目前的用户规模如何,有哪些重量级的客户?

韩拓:如刚才所说,七牛目前有15万企业和开发者客户,新增客户大概几百到上千不等,其实不乏一些重量级和明星企业,如美图、camer360、穷游、海康、豌豆荚、陌陌等。 站在客户的角度,我们能为他们提供:

首先成本方面,一个是降低开发成本,企业不必再自己研发一套存储系统了;一个是降低运维成本,托管式的云存储完成免运维;一个是硬件的沉没成本,按需付费,一次性的投入小,非常适合中小企业和大企业中刚刚起步的业务。

其次收益方面,使用更专业的服务,可以增强数据可靠性和可用性,提升上传下载速度,可以方便的使用七牛周边的数据处理、自定义计算、数据统计、报表等服务,这些都为开发者提供了极大的便利。

核心优势

CSDN:云存储一直是国内外云巨头的必争之地,你觉得七牛在云存储领域的优势体现在哪些方面?

韩拓:我们的优势可以从几个方面来谈:

第一是专注。国内外涉足云存储产品的巨头很多,但是像七牛这样专注在这个领域的公司非常少。存储是一个很大的话题,想做好、做深不容易,需要投入大量的时间和精力,需要有足够的耐心,不断去打磨、优化,需要耐得住寂寞,不被外界的诱惑所打扰,做很多看似枯燥实则非常有价值的前研性的学术研究和探索。七牛在这方面做得非常好,我们成立三年来,可以说只做了一件事就是存储,所以在存储这个领域,我们才能做到有百分之一百的自信,绝不输给任何行业巨头。

还有一点是技术实力。我们的核心团队是国内最早研究分布式存储的一批人,在这个领域已经摸爬滚打很多年,也为不同的业务做过了很多次的存储系统,所以我们对存储系统的设计和研发都积累了非常多的经验。得益于这些经验,在七牛创建之初,我们可以用三个月的时间就上线第一版的产品,在之后的三年里,我们做到平均每周产品更新两、三次,通过这三年的技术积累,不断迭代、打磨,自然形成了在市场上极具优势的产品。

第三点优势我认为是七牛独特的做产品的风格。云存储是一个比较抽象的产品,它的界面就是各种API,从这个角度来看,云存储的产品不好把握,在这个问题上,七牛有一套自己独特的方法论:用户需求驱动产品迭代。刚才提到,在七牛创建之初,我们用三个月的时间上线了第一版产品,这一版的产品很简单,只提供最普通的上传、下载功能,在这一版本产品基础上,我们引入种子客户,客户在使用过程中通常会提出自己独特的需求,,我们会用最快的速度响应这些需求,将需求抽象化,并在产品中实现,这个时间非常快,通常是两、三天就可以上线,在这个过程中,产品会自然而然的得到完善。随着产品的完善,会引来更多的客户,更多的客户会带来更多的需求,帮助我们更加完善自己的产品,这是一个非常好的良性循环。对产品的审美,我们从不妄自菲薄,也不会主观自大,而是一切跟随需求而动,这个方法论沿用至今,帮助七牛的产品在市场上一直处于领先地位。

第四点我想谈谈服务意识。云存储的核心世界观我认为是托管二字,“托管”中的“管”字其实就是指服务,所以服务意识是运营一个云存储业务最核心的要素之一。七牛一直很重视对客户的服务,从创业之初起,我们就建立了7*24小时的技术支持、运维、开发联动的客户支持体系,做到第一时间响应并处理客户的问题,对于重要问题,CEO和其它高管甚至会亲自提供一对一的客户服务,对于需要帮助的中小企业和初创企业,我们的架构师还会深入了解对方的架构,并提供对应的架构建议和接入方案。良好的服务意识弥补了一些产品上的死角,使七牛真正成为企为贴心的数据管家,我认为这也是我们能够领先于其它云存储厂商很关键的一点原因。

技术架构

CSDN:注意到你们在云存储领域拥有国内先进的全分布式架构以及存储技术,能否分享一下你们在这方面使用到的一些技术,架构和实践经验?

韩拓:在技术上我们引以为豪的点有很多,我选几个大家容易理解的举例。

第一个是多数据中心的广域网分布式架构。七牛使用多数据中心技术有两个目的:一个是多数据中心的存储,一个是多数据中心的上传、下载加速。七牛在全国有数个核心的存储机房,这些机房的规模都比较大,用于存储客户的数据,客户可以根据自己的业务特点,主动选择一个或多个存储机房使用,或者不关心多存储机房的架构,完全交给七牛的系统来调度数据,这个技术给客户提供了最大的灵活性,比如网盘类的业务,本地化特征非常明显,终端用户通常在只同一个城市上传和下载,这时我们就可以支持不同区域的端终使用不同区域的存储机房,如北京的客户端使用北京的存储机房存储,上海的客户端使用上海的存储机房存储,这样数据存放的位置与使用的位置最近,获得最好的上传、下载速度。还有一类业务无显示的地域特征,比如微博类的分享应用,数据上传和下载的位置通常不在一起,数据由客户自己调度就显得很麻烦,这时就可以使用七牛的系统来调度数据,而不关心数据具体存于哪个机房。我们会将数据先存放到离上传最近的机房,然后根据读取情况异步将数据智能调度到其它机房,包括与CDN合作建设的数百个加速节点,以获得最好的访问题速度。

另一个有意思的是双数据中心间的互备。将数据存放于一个数据中心内的风险很大,如果数据中心断电、断网,会造成数据的不可用,如果一个数据中心发生灾难性事故,还可能会造成数据丢失,所以七牛使用了双数据中心的互备技术。我们将两个数据中心用裸光纤互联,当用户上传文件到某个数据中心时,系统异步将文件数据和相关原数据同步到与之互备的另一数据中心,这样当一个数据中心故障时,我们会根据故障的级别启用不同的应急预案,将请求切换到与之互备的数据中心。

还有一个很重要的是低成本、高可用性的冗余算法。在技术上存储系统的核心诉求是成本和可靠性,而这两者又是一对矛盾,想降低丢失数据的风险,势必要增加每份数据拷贝的份数,而增加每份数据拷贝的份数,又势必增加成本,七牛使用EC冗余算法来平衡这对矛盾。这个算法将一份数据拆分成M份,并将这M份数据代入一个多元线性方程组,算出N份校验数据,然后将这M+N份数据存储,在存储下来的M+N份数据中,有任何一份或多份数据损坏,我们都可以通过这个多元线性方程组将损坏的数据算回,由这个原理我们很容易得到一个结论,使用EC冗余算法的系统最多支持N份数据损毁而不丢失数据,七牛使用了一些自己独有的技术,将M和N都做到比较大的数值,M又远远大于N,使得系统的备份数非常低 — (M+N)/M (M远大于N),而可靠性又非常高 — 可同时损坏N份数据(N也是较大的数值)。

安全保证

CSDN:尤其是企业级客户对安全的重视可以说是零容忍,你们如何保证?

韩拓:企业对安全的诉求通常是两方面,一是数据不丢失,二是数据不泄漏。在数据不丢失方面,我前面讲过七牛使用EC冗余算法,获得了极高的数据可靠性,并在此基础上又引入双数据中心互备来避免单机房灾难性事故,通过这些努力,七牛做到保护企业的数据零丢失。

在数据不泄漏方面,一方面七牛通过防火墙、堡垒机、安全审计、告警机制,内外网DMZ隔离、文件数据打散存储、元数据与文件数据分离存储等技术和手段保证安全,另一方面七牛加强内部人员和流程管理,任何内部人员的操作都通过严格的授权和审计,确保内部工作人员无法接触到生产系统的数据。

中国创新“先锋”企业系列报道
序号公司名称成立时间CEO/CTO官方微博公司产品/方向
1.云适配2012年陈本峰网站适配
2.友友2010年  
姚宏宇 
@友友微博C、C++、Java产品研发 
3.聚合数据 
2010年 
左磊  
@聚合数据移动数据服务
4.Anchora2009年鲁为民        
MoPaaS和InPaaS  
5.够快2012年 
蒋烁淼@够快科技  
云存储 
6.文思海辉 
2012年吴凯 
@文思海辉 OpenStack公有云        
7.搜狐云2011年邱英波SendCloud                   
8.联想云存储2009年罗予晋云存储
9.南京讯之智2012年谢晚霞大数据实时分析
10.上海圣何赛2012年  
金剑  
云管理、云存储                 
11.国云科技  
2010年 
季统凯 
@国云科技云操作系统                 
12.SSO3652012年赵健                
云安全、云身份认证  
13.ClouDil云方案2001年 
叶滨@世纪鼎利  
通信运营商                 
14.多备份  
2013年胡茂华             
@木浪云备份                  
15.上海越诚软件2011年王炜基于云的建站软件超市  
16.云智慧2009年殷晋@监控宝云监控、基于大数据APM
17.深圳泽云2012年何巨彬高性能存储系统
18.深圳智冠2004年卢慧莉手静脉生物识别、虚拟化
19.北京沃安科技2009年曹学武@沃安科技移动视频技术提供商
20.星环信息科技2013年孙元浩@星环科技大数据分析平台
21.杭州数云2011年宣晓华@杭州数云数据挖掘 
22.红象云腾 
2012年童小军@RedHadoop 
基于Hadoop大数据平台
23.APICloud2013年邹达@APICloud云API和端API 
24.SequoiaDB 
2012年王涛@SequoiaDB 
大数据、云计算、NoSQL  
25.Syscloud 
2012年张雄国云主机虚拟数据中心
26.易思捷2008年杨炳富@易思捷虚拟化和云计算 
数据中心,虚拟化
27.亲加通讯云2011年须泽中@亲加通讯云  
通讯云
28.OneAPM2008年何晓阳@蓝海讯通OneAPM基于SaaS平台的APM
29.TalkingData2011年崔晓波@Talkingdata移动大数据平台
30.北森2002年纪伟国 
@北森官方微博互联网人才管理软件
31.听云2007年Wood Chen@听云基于SaaS的APM
32.万国数据2000年黄伟@万国数据高可用IT服务提供商
33.思明软件2013年冯是聪@思明软件大数据分析
34.七牛云存储2011年许式伟@七牛云存储云存储

备注:2014年11月18日更新,持续更新中......


备注:云先锋系列文章是由CSDN云计算频道打造的,主要报道(免费)国内外在云计算、大数据方面具有独特竞争优势的企业,以传播技术为目的,推动中国云计算技术的发展,欢迎投稿!weiwei@csdn.net。 

全国大数据创新项目评选活动目前也在如火如荼进行中,详情点击这里

CSDN诚邀您参加中国大数据有奖大调查活动,只需回答23个问题就有机会获得最高价值2700元的大奖(共10个), 速度参与进来吧

第八届中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)将于2014年12月12日-14日在北京新云南皇冠假日酒店召开。传承自2008年,历经七届沉淀,“中国大数据技术大会”是目前国内最具影响、规模最大的大数据领域技术盛会。本届会议,你不仅可以了解到Apache Hadoop提交者Uma Maheswara Rao G(兼项目管理委员会成员)、Yi Liu,以及Apache Hadoop和Tez项目管理委员会成员Bikas Saha等分享的通用大数据开源项目的最新成果和发展趋势,还将斩获来自腾讯、阿里、Cloudera、LinkedIn、网易等机构的数十场干货分享。 门票限时折扣中, 预购从速

转载于:https://my.oschina.net/moodlxs/blog/360188

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值