最近偶然发现百度的同学 00k ,发布了百度万亿级数据库tera。 从介绍可以看出该系统已成为百度spider 3.0和网页数据库的核心模块,管理节点过万,数据存储量级达到pb级。虽然该系统开源较晚,但相比于同类开源产品,如hbase等,性能、可靠性和稳定性应该有非常大的提升。从公布资料看,tera每天能实时处理百亿的链接数据,管理万亿数据规模,而类似hbase的系统还没有哪个应用能达到百度的数据量级。
tera另外一个吸引人的特点是全c++实现,终于可以摆脱java了。
后续开一个深入理解tera的技术专题,与大家分享一下。
记录一下代码地址:http://github.com/baidu/tera,代码走起!