一、灾备保护的什么?
对于各行各业而言,用户数据、系统数据均是企业最核心、最重要的财富,但以下种种原因,都可能给数据带来不可逆转的损坏。只有完善的灾备方案,才能最终保障数据安全、业务连续性。
随着互联网市场的蓬勃发展,及用户对数据重视程度的日益提高,据智研数据中心统计数据,灾备行业的市场规模已达百亿规模,且预计会逐年持续增长。
云灾备100G免费使用,联系咨询:18513296950
数据压缩、重删比例:可达到7:1,实际700G的数据意思是经过加密切块压缩,及并行重删备份后实际在UCache灾备云平台上显示的占用容易仅为100G。
二、什么是灾备?
灾备是容灾和备份的简称。灾备方案=容灾方案+备份方案。
容灾的定义:指在相隔较远的两地(同城或者异地)建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换。当一处系统因意外(天灾、人祸)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。侧重数据同步和系统持续可用。
备份的定义:指用户为应用系统产生的重要数据(或者原有的重要数据信息)制作一份或者多份拷贝,以增强数据的安全。侧重数据的备份和保存。
三、灾备的两个关键技术指标
RTO:RecoveryTime
Object,恢复时间目标。指灾难发生后,从IT系统宕机导致业务停顿之刻开始,到IT系统恢复至可以支持各部门运作,业务恢复运营之时,此两点之间的时间段称为RTO。
RTO是反映业务恢复及时性的指标,体现了企业能容忍的IT系统最长恢复时间。设目标RTO值设定的越小,代表对容灾系统的恢复能力要求越强,但企业投资也越高。
RPO:Recovery Point
Object,恢复点目标。指灾难发生后,容灾系统进行数据恢复,恢复得来的数据所对应的时间点称为RPO。
RPO是反映数据丢失量的指标,体现了企业能容忍的最大数据丢失量的指标。目标RPO值设定的越小,代表企业允许的数据丢失越少,企业损失越小。
设计灾备方案的核心是:帮助客户平衡RTO/RPO的需求和客户经济能力,找到最佳的实现技术和手段,适合的才是最好的。
四、备份的分类
分类方式
分类
按照备份内容
操作系统备份、数据备份
按照备份数据量
全量备份、增量备份、差异备份
按照备份形式
(主要针对数据库)
物理备份、逻辑备份
按照备份时数据库是否启动
(主要针对数据库)
冷备份、热备份
按照备份介质
磁带备份、磁盘备份
为了大家更轻松的理解这些分类,下面我详细解释下冷备、热备,增量备份和差异备份的差异:
分类
优点
缺点
冷备
将数据以隔离的方式来保存,
备份数据不受原数据的影响;
解决了硬件故障、人为误操作。
数据恢复慢
热备(又称冗余)
搭建冗余的环境,数据完全一致;
恢复速度快,瞬间恢复。
只能解决硬件故障,
不能解决人为误操作
分类
定义
全量备份
备份所有数据
增量备份
针对上一次备份所作的增量备份(上一次的备份可以是全备,可以是增备)
差异备份
针对上一次的全备份所做的增量备份
五、云产品的灾备特性
以下讲解以UCache云灾备为例,其他云平台会有些许不同,大家可自行查阅官方文档。
(目前UCache云灾备100G免费使用,数据压缩、重删比例:可达到7:1,实际700G的数据意思是经过加密切块压缩,及并行重删备份后实际在UCache灾备云平台上显示的占用容易仅为100G。)
UCache灾备云特点
领先的技术架构
优化的虚拟化平台备份,采用块级增量备份技术和即时恢复方式,减少99%的恢复时间
优化的重复数据删除技术,云端存储空间最大化利用
广泛的环境兼容性,兼容各类操作系统平台、应用平台、数据库平台的数据保护
丰富的云端灾备服务方案
基于云数据中心的灾备服务方案实现跨地域和物理隔离的灾备数据中心服务
支持数据从本地到云端(D2C或D2D2C),云端到云端(C2C)的灾备服务架构,满足用户的复杂应用场景
支持将数据灾备到UCache合作的数据中心,或用户自建的数据中心
更佳的投资回报
基于云服务的订阅收费模式,按需订阅,弹性扩容,减少初期的投资浪费
采用阶梯定价模型,备份容量越大,单价越低
灾备云建设无需用户初期硬件资产投入以及运维人员投入,降低灾备建设成本
灾备云SaaS数据保护技术,数据灾备核心优势
全面的数据保护
全面的IT环境兼容性:统一保护云、虚拟和物理环境
广泛的云环境兼容性:兼容腾讯云、华为云等
大数据平台保护:支持Hadoop、SAP HANA、MongoDB等应用平台的保护
卓越的性能
重复数据删除技术:累积重删比高达99% , 减
少备份窗口 , 存储节约70%
永久增量备份技术:大幅提升备份效率
LAN-Free 备份技术:通过FC SAN 通道进行
备份 , 解放网络带宽 , 提升数据备份恢复效率
简易的运维管理
部署简单:一体化的产品形态,以及向导式的操
作指导,轻松实现安装部署
使用简单: All-in-One-Web 管理模式, 统一管理
所有备份和恢复任务
管理简单:无缝集成AnyBackup Master Server,
轻松实现集中管理,提升效率 , 降低成本
扩展简单:一旦数据量增大 , 接入新的备份节点
即可满足需求( 部分型号支持Scale-out 扩展)
超低的TCO
多种产品形态:不同配置的型号满足不同的客户需求
基于功能的授权模式:按需购买功能授权,降低成本
广泛的存储兼容性:不仅支持经济弹性的云存储 ; 还可整合多种利旧存储,提升投资回报率
弹性扩展的架构:部分型号支持Scale-out 扩展,容量和性能均能按需扩展
六、几种常见的灾备架构
1、用云搭建异地容灾中心
本地物理机房为主数据中心,仅将数据备份到云端。
2、基于公共云的同城灾备
将全部系统迁移上云,并部署在同一个地域的两个不同可用区中,实现系统的同城灾备。
3、基于公共云的异地灾备
将全部系统迁移上云,并部署在两个不同的地域中,实现跨地域灾备。
4、结合公共云同城灾备和异地灾备
如:两地三中心,
七、分析几起严重的数据丢失事故
炉石传说故障
2017年1月18日,由网易代理的暴雪旗下卡牌类游戏《炉石传说》遭遇了重大故障,从1月17日凌晨1点开始开始维护,直到1月18日下午18点才完成。
而更为可怕的是,《炉石传说》的数据并没有恢复,备份数据库也出现了故障,因此这款游戏的玩家被迫回档到1月14日15点20分。
案例分析:高可用没做好,导致实际RTO很长;
数据备份方案设计不完善,应充分考虑同机房不同机器+异地备份等方式,避免备库一起损坏。
Gitlab数据库被删除
2017年2月1日,GitLab
一位身处荷兰的疲惫系统管理员在进行数据库复制过程中不小心在一台错误的服务器上删除了一个目录,他删除了一个包含 300GB
实时产品数据的文件夹,在取消 rm -rf 删除命令后该文件夹只剩下 4.5GB
数据。并且最近的数据还是在6小时前备份的。
GitLab.com号称有五重备份机制:常规备份(24小时做一次)、自动同步、LVM快照(24小时做一次)、Azure备份(只对
NFS 启用,对数据库无效)、S3备份。这次事故发生时,所有备份全部无效!
案例分析:备份方案设计多么重要!周期性的灾难恢复演练(验证备份的有效性)多么重要!
腾讯云盘故障,致用户数据完全丢失
腾讯称该故障缘起于因磁盘静默错误导致的单副本数据错误,再加上腾讯运维人员在数据迁移过程中的两次不规范的操作,导致云盘的三副本安全机制失效,并最终导致数据完整性受损。
案例分析:单一的数据备份方式可能造成不可逆转的损失;多种备份方式结合使用,可最大概率的降低风险。