大数据备份方面最常见误区

1、数据有多个副本,就不需要单独的大数据备份/恢复工具。

大数据平台创建数据的多个副本,并将这些副本分布在不同的服务器或机架上。万一出现硬件故障,这种类型的数据冗余机制可保护数据。然而,其他任何情况(比如用户错误、意外删除或数据损坏等)都会导致数据丢失,因为这些错误或损坏会迅速蔓延到所有数据副本。

2、丢失的数据可以通过原始数据快速而轻松地重建。

如果你仍拥有重建丢失数据的所有原始数据,这也许切实可行。但在大多数情况下,原始数据被删除或不容易访问。就算原始数据可用,重建丢失的大数据可能也需要好几周,消耗大量的技术资源,而且对大数据用户来说延长了停机时间。

3、备份PB级大数据是不经济或不实际的。

PB级数据的定期完整备份需要数周时间,还需要高额的基础设施投入。然而,你可以采取几个办法来缓解这些问题。你可以找出对贵企业来说很宝贵的一小部分数据,然后只备份这部分数据。采用重复数据删除等较新的备份技术来高效地存储备份内容,永久增量备份以传输变化的内容,使用商用服务器,这些同样有助于降低成本、缩短备份时间。

4、远程灾难恢复副本可以充当备份副本。

谨慎的做法是,将数据副本放在远程数据中心,防止火灾和地震之类的大规模灾害。这通常通过定期将数据从生产数据中心复制到灾难恢复数据中心来实现。然而,对生产数据中心所作的所有变化会蔓延到灾难恢复站点,包括意外删除、数据库损坏、应用程序损坏等。因此,灾难恢复副本不能充当备份副本,因为它没有你可以用来回滚的时间点副本。

5、编写大数据的备份/恢复脚本很容易。

如果你拥有技术资源,数据量不大,又只有一种大数据平台,那么编写脚本切实可行。大多数企业组织通常有数十TB、乃至数百TB的大数据散布在多个大数据平台上。针对这种类型的环境编写、测试和维护脚本并非易事。需要为得到支持的每种平台编写脚本。脚本必须大规模进行测试;平台版本变化后,还得重新测试。在某些情况下,脚本可能需要定期更新,以便支持平台的新功能、新API、新的数据类型等。

大多数企业组织没有认识到,针对大数据平台编写好的备份脚本面临大笔的隐性成本,还需要相应专长。恢复过程难得多,而且容易出错,因为它涉及诸多环节:找到合适的备份副本,将数据拷回到相应节点,运用针对特定平台的恢复程序以恢复数据。

6、大数据备份/恢复操作成本很低。

除了定期维护和测试脚本外,还有与备份和恢复有关的额外成本。额外成本包括如下:
人员成本:有人得负责运行脚本,确保备份成功,需要时进行调试,执行临时恢复等。
存储成本:存储备份内容需要花钱。
停机成本:在这段时间内,管理员要找到备份副本,并将数据恢复到理想状态。
尤其是在大数据环境变得更庞大、更复杂后,这些成本可能会大幅增加。

7、快照是大数据的一种有效的备份机制。

快照(在特定时间点冻结的数据状态)有时用作备份副本,以防止用户错误或应用程序损坏。
快照可以用来使备份过程实现自动化。然而,使用存储快照时,需要额外的手动步骤,确保备份数据和元数据的一致性。
其次,数据不快速变化时,快照才有效。就大数据平台而言,数据变化速度很快,而压缩等技术只会加快数据变化速度。因而,快照需要庞大的存储开销(高达50%)来保留几个时间点拷贝。最后,通过快照恢复数据将是非常繁琐的手动过程。管理员或数据库管理员不得不找出与需要恢复的数据(比如密钥空间或表)相对应的快照文件,然后通过快照恢复到集群中的相应节点。恢复过程中一旦出现错误,就会导致数据永久丢失。
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值