今天我给大家聊聊 CDM( Copy Data Management )前世今生,CDM 翻译成中文是:拷贝数据管理,或者副本数据管理。提到 CDM,可以说是既熟悉又陌生,熟悉的原因是在许多行业分析中经常看到(比如 IDC、Gartner 的分析报告);陌生的原因是 CDM 副本数据管理在国内应用还不广泛, CDM 副本数据管理到底能做什么,工作原理是什么,大家也不是十分清楚,另外市场上的宣传也很混乱,并没有一个十分清晰的标准定义。
今天想给大家讲清楚 CDM 副本数据管理到底是什么、能做什么、以及如何实现。
CDM 副本数据管理是一种数据管理方法,通过创建和管理数据副本,来满足不同业务对数据访问和使用的需求。
简单来说,CDM 就是将数据复制到不同的位置,以便在不影响原始生产数据的情况下,进行数据分析、测试、开发、恢复测试、灾难恢复等操作。
比如可以用 CDM 做灾难恢复测试,就非常方便,不需要做数据恢复操作,直接挂载 CDM 克隆的副本就能完成,这样做的好处,一是效率高,二是节省了测试所需的存储空间,三是操作可以流程化。
再比如 ERP 系统,随业务的变化,ERP 软件需要进行更新,更新后的软件需要用生产数据进行测试,但生产数据含敏感信息,需要先脱敏,然后才能进行测试,这时就能利用 CDM 创建的副本数据进行脱敏,然后给 ERP 新的软件进行测试。这样做的好处是,CDM 创建副本速度快,占用空间小,可以达到节省存储,加速测试进度的目的。效率提升好几倍。
这类应用场景非常多,就不一一去讲解了。
CDM 作为一个独立的数据管理概念开始出现大约在 2010 年前后,在2010 年前后诞生了 Actifio、 Rubrik 、Cohesity 这几个做 CDM 比较出名的玩家。
这 3 家公司以前都以不同的方式进入过中国市场,但由于不能满足中国企业数据中心数据保护需求,另外价格很贵,不被中国市场接受而退出了中国。国内 CDM 市场主要是以国产 CDM 软件为主,爱数的 AnyBackup 就是 CDM 副本数据管理的一个重要玩家,早在 2017 年就发布了 CDM 副本数据管理技术及相关产品。随着 CDM 技术的普及,越来越多用户感受到了 CDM 的价值, CDM 副本数据管理逐步成为数据管理方案中的必备功能。
CDM 副本数据管理功能是通过一系列成熟的数据管理技术来实现的,主要包含以下核心技术:
- 增量备份和差异备份:快速从生产系统中获取数据来创建数据副本,可以利用文件系统备、数据库、虚拟机的备份接口
- 快照技术:捕获数据在特定时间点的状态,利用数据快照可以实现对不同时间点的数据进行访问、恢复等操作,但要注意快照是只读副本
- 虚拟克隆:通过映射表或索引来实现数据的共享和引用,只在数据发生变化时才会真正复制数据块,可供快速恢复、开发、测试、分析等使用,克隆是读写副本
- 重复数据删除/数据压缩:通过识别和消除重复的数据块,再通过数据压缩算法减少数据的大小,从而减少存储空间的需求
- 自动化和集成:使用 API、脚本和工作流引擎来实现自动化数据管理任务,提高管理效率
最后总结一下:CDM 副本数据管理的工作原理就是:利用增量复制技术从生产系统中获取新数据,创建一个生产系统的最新副本,这个副本就是所谓的“黄金副本”,然后对这个复制副本做快照保护,记录数据的时间点状态。如果需要使用某个时间点的数据,就对这个时间点的快照做虚克隆操作,创建一个可读写的克隆副本,用于数据分析、测试、开发、恢复测试、灾难恢复等操作。CDM 副本数据管理可选择重删和压缩,节省存储空间。