最近的一个项目让我有幸接触此款数据库产品,对于它MapReduce的架构让我眼前一亮,自己一用hadoop研究了一下。
前几天同事参加GP的培训带回来一些GP的资料,最近仔细的研读一下。我觉得伴随信息的膨胀,GP的架构的确是未来的
发展方向。
不过开始有了小小的疑问,GP的并行处理的关键是将数据均匀的分布在每个节点上?
1987加州大学的伯克利分校发明了RAID技术,我觉得在数据存储层上可以把GP看成是应用了RAID0的技术
那么这样的方式不就是把数据的安全性伴随GP slave的节点数的增大成倍的增加吗?虽然提升了数据处理效率,
但是安全性何言,如果一个slave当掉,那整个数据体系就没有了完整性,GP承载的是TB级别的数据量,那丢失
的数据真的是太大了。
由于本人对GP的认识是初步的,也许在深入了解之后会消失这样的疑问
GP提供了备份方案