apache Doris java_Apache Doris(incubating)0.11.0 版本正式发布

经历了三个多月的研发,Apache Doris(incubating) 0.11.0版本今天正式发布了。这是Doris进入Apache社区孵化以来第三个正式版本。

Doris功能、性能在0.11.0版本都有极大的提升,总计有29名社区同学贡献了382个commit。Doris的contributor数目也增长到了57名。

在过去的一个月,外部同学的代码提交量已经达到了主创团队代码提交量的一半。同时也迎来了Doris第一个海外用户Shopee。

引擎重构

本次版本最大的改进就是重构了存储引擎。通过重构存储引擎工作,引擎的代码框架变得更加清晰,之前版本很多的Corner Case也在本版本修复。除此外,通过本次的引擎重构,代码的可读性、扩展性都得到了极大的提升。也正是基于此次工作,正在优化存储结构,预计在0.12版本中,能够支持字符串字典压缩,压缩比比现在提升1倍左右。以及在未来的版本中增加倒排索引等工作。

Bitmap类型支持

在这个版本中,Doris支持了Bitmap类型,用户如果有精确去重的需求可以通过使用这种类型来实现。用户可以在聚合模型下创建Bitmap类型的value列,然后向这个字段导入数据时,Doris内部会将所有导入的数据求并呈现为一个Bitmap。当用户进行查询的时候能够对这个字段进行union、count等计算,从而能够达到精确去重的功能。

这个功能是由美团的@kangkaisen(github.com/kangkaisen)同学贡献,在美团内部,性能已经达到可上线标准。

文档工作

文档一直被用户所抱怨,在这个版本中,重构了文档结构,将之前需要写多份的文档变成“书写一次,多次应用”。这样能够保证无论是用户从官网上看到的,以及用户通过help查看到的文档内容都是一致的。同时也在不断的增加文档内容。此外,还增加了我们的英文文档内容,当前大部分英文文档内容是通过翻译软件获得。

用户可以从Doris官网(doris.apache.org/)获得文档的内容。

导入优化

parquet

通过社区同学们的努力,Doris现在能够直接导入Parquet格式的数据内容了。

识别分区列

同时也能够从导入文件路径中获得对应的列信息,这样能够更好的兼容Hadoop/Spark生态,让用户能够更加方便的导入数据。

指定过滤条件

用户可以在导入的时候指定过滤条件。通过这个机制,用户能够在数据导入到Doris前,完成对数据的抽取功能,将不需要的数据过滤掉,是的用户在导入数据的时候能够更加灵活地进行数据导入。

时区支持

在这个版本中,京东的同学@HangyuanLiu(github.com/HangyuanLiu)为Doris支持了时区功能。现在用户无论导入、查询都能够设定时区来完成时间数据的相关转化。

除了上述所列功能外,还有很多其他功能、性能方面的修复。用户可以访问这里(github.com/apache/incubator-doris/issues/1891)来获取所有相关改进。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Apache Doris(孵化器项目)是一个开源的分布式实时数据仓库,旨在提供高性能和可伸缩性的数据分析和报告能力。它的主要原理和实践如下: 1. 列式存储:Apache Doris使用列式存储来存储数据,即将每列的数据分开存储在不同的文件中。这种存储方式有助于提高数据的压缩率,减少存储空间的占用,并提高数据查询的效率。 2. 分布式架构:Apache Doris采用分布式架构,将数据分片存储在多个节点上,以实现数据的水平扩展和负载均衡。每个节点都有相同的数据副本,确保数据的高可靠性和容错性。 3. Write-optimized:Apache Doris采用了“write-optimized”(写优化)的设计理念,即将写入操作的性能优化至极致。它使用了基于LSM树(Log-structured Merge Tree)的数据结构,将写入操作顺序化和批处理,大大提高了写入性能。 4. 计算与存储分离:Apache Doris将计算和存储分离,通过多个计算引擎(如Palo,Spark)对数据进行分析和查询。这种架构允许根据需求进行灵活的扩缩容,并提供了多种数据接入和导出方式。 在实践中,可以按照以下步骤使用Apache Doris: 1. 安装和配置:首先需要下载和部署Apache Doris,然后进行相关配置,包括节点的IP地址、端口号、数据存储路径等。 2. 数据导入:将数据导入到Apache Doris中,可以通过多种方式,如使用ETL工具、使用JDBC驱动程序或通过API进行数据导入。 3. 数据模型设计:根据需求设计数据模型,包括表的结构、字段名和数据类型等。 4. 数据分片和分布:根据数据量和负载要求,将数据分片存储在不同的节点上,并确保数据的均衡分布。 5. 数据查询和分析:使用SQL语句对数据进行查询和分析,通过连接计算引擎对数据进行处理和计算,并根据需要生成相应的报表和图表。 6. 集群监控和管理:通过监控工具对集群进行实时监控,包括节点的状态、负载情况和性能指标等,及时发现和解决问题。 总之,Apache Doris通过列式存储、分布式架构、写优化和计算与存储分离等原理,提供了高效可靠的数据分析和报告能力。在实践中,可以根据需求进行安装配置、数据导入、数据模型设计、数据查询和分析,以及集群监控和管理等步骤。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值