深入理解tera——百度开源万亿级数据库

最近偶然发现百度的同学 00k ,发布了百度万亿级数据库tera。 从介绍可以看出该系统已成为百度spider 3.0和网页数据库的核心模块,管理节点过万,数据存储量级达到pb级。虽然该系统开源较晚,但相比于同类开源产品,如hbase等,性能、可靠性和稳定性应该有非常大的提升。从公布资料看,tera每天能实时处理百亿的链接数据,管理万亿数据规模,而类似hbase的系统还没有哪个应用能达到百度的数据量级。

tera另外一个吸引人的特点是全c++实现,终于可以摆脱java了。

后续开一个深入理解tera的技术专题,与大家分享一下。

记录一下代码地址:http://github.com/baidu/tera,代码走起!

转载于:https://my.oschina.net/u/2982433/blog/776173

Tera 是一个高性能、可伸缩的数据库系统,被设计用来管理搜索引擎万亿的超链与网页信息。为实现数据的实时分析与高效访问,我们使用按行键、列名和时间戳全局排序的三维数据模型组织数据,使用多Cache系统,充分利用新一代服务器硬件大内存、SSD盘和万兆网卡的性能优势,做到模型灵活的同时,实现了高吞吐与水平扩展。特性全局有序热点自动分片数据强一致多版本,自动垃圾收集按列存储,支持内存表动态schema支持表格快照高效随机读写数据模型Tera使用了bigtable的数据模型,可以将一张表格理解为这样一种数据结构:map<RowKey, map<ColummnFamily:Qualifier, map> > 其中RowKey、ColumnFamily、Qualifier和Value是字符串,Timestamp是一个64位整形。ColumnFamliy需要建表时指定,是访问控制、版本保留等策略的基本单位。系统架构系统主要由Tabletserver、Master和ClientSDK三部分构成。其中Tabletserver是核心服务器,承载着所有的数据管理与访问;Master是系统的仲裁者,负责表格的创建、schema更新与负载均衡;ClientSDK包含供管理员使用的命令行工具teracli和给用户使用的SDK。 表格被按RowKey全局排序,并横向切分成多个Tablet,每个Tablet负责服务RowKey的一个区间,表格又被纵向且分为多个LocalityGroup,一个Tablet的多个Localitygroup在物理上单独存储,可以选择不同的存储介质,以优化访问效率。系统依赖使用分布式文件系统(HDFS、NFS等)持久化数据与元信息使用zookeeper选主与协调使用Sofa-pbrpc实现跨进程通信系统构建参考BUILD使用示例参考wiki反馈与技术支持tera_dev@baidu.com 标签:百度
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值