AWS Redshift优劣使用总结
标签(空格分隔): Blog
AWS的数据仓库服务-Redshift,可以比较快速方便地实现数据仓库的基础模块,我们的数据仓库目前就是基于Redshift。
Why Redshift
- 可以快速地实现cluster存储,基本零运维
性能高、稳定性强(这一点可以查看参考链接1)
虽然是2014-02的数据,但是基本的情况足以说明,redshift在Scan、Aggregation、Join等各方面都表现出非常优越的领先优势。
而且目前的redshift也已经增加了对自定义函数(UDF)的支持,相信能够满足更多人的选择.当时我们的日志解析模块使用EMR,结果存储在S3,很天然地选择Redshift来作为后续的存储和计算。
整个集群会做镜像,可以实现快速恢复及集群拷贝.
以上更多是我们的选择考虑,下面来聊一聊觉得需要考虑的不好的地方:
Trade Offs
- 目前Redshift在中国区并未开放,包括挺多其他大数据相关服务。我们目前服务在新加坡节点
- GFW的跨网络问题
我们的服务器是在国内,这个就必须谈到跨data
center的数据传输问题,类似的一个chain:中国区数据打包-> 上传新加坡节点的S3 -> 从S3 upload到新加坡节点的Redshift。
这个过程中遇到挺多网络的问题