中科院计算所陈世敏_陈世敏 – 树状大数据系统Steed与JSON数据处理

陈世敏 – 树状大数据系统Steed与JSON数据处理

admin 学术活动 新闻公告 2017-11-16

摘要ABSTRACT:

以JSON、Protocol Buffers等为代表的树状结构数据,能够简洁地表达嵌套、多值和缺值,可用于表述高级程序设计语言中class, struct等丰富的结构,已经逐步替代了XML成为事实上的标准,并广泛应用于社交网络数据服务、Web服务、数据交换格式、分布式系统协议、物联网等,成为一种重要的大数据类型。我们研发了一个通用的树状结构数据库系统Steed,支持树状数据的行式和列式存储,和类似SQL的查询分析功能。我们对实际中存在的树状结构数据进行了分析,发现虽然树状类型本身可以表达丰富复杂的结构,但是实际中出现的结构大部分是简单的,从树根到树叶的路径中,有90%以上的路径是简单路径。利用这一发现,针对简单路径,优化了外存存储、内存数据结构、列组装算法。与现有系统PostgreSQL/JSON, MongoDB, Hive+Parquet相对比,Steed对于数据分析操作普遍有10—1000倍的性能提升。本报告基于SIGMOD’17和VLDB’17工作。

简介BIO:

陈世敏,中科院计算所研究员,分别于1997年和1999年获得清华大学计算机系学士和硕士学位,于2005年在美国Carnegie Mellon University获得计算机科学博士学位。博士毕业后,先后在美国Intel Labs、CMU和HP Labs任Researcher、Senior Researcher和Research Manager,于2013年加入中科院计算所,并入选中科院“百人计划”。 陈世敏的研究兴趣主要集中在数据管理系统、大数据系统和计算机体系结构。曾获得ICDE’04 Best Paper,SIGMOD’01 Runner-up Best Paper,体系结构2008年度顶级论文Top Picks’08。SIGMOD’09是数据库领域最早研究闪存的论文之一,CIDR’11是数据库领域第一篇研究新兴非易失存储的论文。担任ICDE’18 PC area chair, VLDB’17 PC Associate Editor, ICDCS’16和CIKM’14的PC area chair,多次担任SIGMOD,VLDB,ICDE,CIDR , ASPLOS, EUROSYS等的PC。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值