![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Doris
文章平均质量分 72
howard_shooter
交流微信:17625988619
展开
-
Doris中的本地routineload环境,用于开发回归测试用例
上面这些都弄好后,执行 ./run-thirdparties-docker.sh -c kafka,就会下载镜像,创建kafka和zookeeper的容器,配置好网络,并向kafka写入数据,这些数据在 doris/docker/thirdparties/docker-compose/kafka/scripts 目录下,对应着 doris/regression-test/suites/load_p0/routine_load/ 里的测试用例用到的表。原创 2024-02-05 17:22:35 · 936 阅读 · 0 评论 -
记 doris 加载压缩文件(lzo、snappy)pr
这里要分清两个概念:lzo是压缩算法,它只管把一块大的数据压缩成一块小的数据,但是要把一个文件分成几个数据块来压缩,压缩以后怎么保存到磁盘,以便于解压缩,这些lzo是不管的,也不会做规定,于是就有了lzop,它是一个把普通文件做lzo压缩和解压的工具(可执行程序),它定义了保存lzo压缩文件的格式,可以理解lzop是保存用lzo压缩算法压缩以后的数据的一个容器(包装盒),而这个lzop也是有格式的。解压时,接受一个已压缩的数据块,解压以后的数据块,放在另一个内存地址,解压后的大小,作为参数返回。原创 2024-02-01 16:14:09 · 913 阅读 · 0 评论 -
为什么需要数据仓库
OLTP环境也会存储历史数据,但这些历史数据并不是业务运行所需的,这些历史数据需要经常归档到数据仓库,并且在OLTP数据库中删除。相比之下,事务环境适用于连续处理事务,通常应用于订单录入以及财务和零售事务。它们并不依赖历史数据。环境下,用户常常需要归档历史数据,或删除历史数据来提高性能。原创 2024-01-22 14:32:24 · 625 阅读 · 1 评论 -
Doris 提交 PR 和 github 的提交权限问题
主要流程参考官方文档:代码提交指南 - Apache Dorisgithub的代码库,使用https地址clone,上传(push)会有个认证问题,参考下面的解决: git报错#Support for password authentication was removed on August 13,2021. Please use a personal...-CSDN博客一些注意点(坑):1、提交PR时,如果要在这个PR分支上提交多次,不要用 --amend,每次修改用独立的commit2、提交完PR可能要原创 2023-12-01 16:18:27 · 279 阅读 · 0 评论 -
BE的参数
BE的配置文件be.conf里的参数,可以通过REST API 修改,例如:也可以通过REST API查看:也可以通过web浏览器查看:原创 2023-11-29 16:52:43 · 80 阅读 · 0 评论 -
记 Doris 回归测试S3导入load_parallelism > 1
经社区小伙伴提示,可能时CA证书的路径不对,doris找不到,调试doris BE端代码发现,doris和S3通讯用的是aws sdk,endpoint没有处理直接传给aws client,aws client再去选择https协议,找CA证书,而我没有aws sdk代码,不知道aws sdk到哪里找CA证书。(后来我猜测aws cli应该是自带CA证书的)注意,BE底层是用AWS SDK访问S3服务的,而 AWS SDK 默认是走https,就是说这里如果只传入域名,走的是https协议使用端口443。原创 2023-11-29 16:26:47 · 926 阅读 · 0 评论 -
S3 的概念和使用
工作需要测试数据库从 S3(Simple Storage Service)导入数据文件,公司有私有S3环境。S3是一种对象存储,数据模型很简单,就是key-value,key就是一个任意字符串,value是一个文件。S3的功能是上传一个文件,并且标记为key,以后就用key获取这个文件。原创 2023-11-22 16:43:42 · 3733 阅读 · 0 评论 -
Doris的执行计划生成、分发与执行
2、如果执行计划中有多个fragment,会分两步,第一步是FE调用BackendServiceClient::execPlanFragmentPrepareAsync()下发fragment,在BE端响应了这个RPC后,会根据fragment信息,重建ExecNode组成的执行计划树,但是不执行,当把所有fragment的执行计划树都重建好了,即prepare完毕。注意,不管哪种情况,fragment信息通过rpc到达BE后,其中plan都有一个reconstruct的过程!原创 2023-08-18 17:59:45 · 1380 阅读 · 0 评论 -
Apache Doris 2.0.0 特性分析
doris可以查询外部表,包括: Hive、Iceberg、Hudi、Elasticsearch、JDBC、Paimon 早期版本中,FE通过BE节点查询外部表,并且在BE节点内执行join、sort、agg等计算, 这些BE节点同时也负责doris的内部表的存储和计算, 新版本改造了BE节点,通过修改配置,它可以仅用于查询外表时的计算,内部表数据不会存到它上面, 这种BE称为“计算节点”,而既存储内部表数据又执行计算的BE节点称为“混合节点”。上面冷热分层的逻辑,也可以只作用于分区数据。原创 2023-08-17 17:38:03 · 1701 阅读 · 0 评论 -
Doris 的批量更新
2、更新操作,底层实现,就是先把新数据生成并写入新的segment文件,旧数据的segment文件不会修改,但是其中被更新的记录会被标记删除,每个segment有一个deletebitmap对象标记哪些记录被删除,deletebitmap不存储在segment文件中,而是存储在同一个BE节点的rocksdb中,这是个内嵌在BE代码中的key-value数据库,可见,更新时,旧的数据文件不会被修改,只是增加新的segment文件和deletebitmap信息,效率是很高的。原创 2023-08-17 14:27:18 · 2156 阅读 · 0 评论 -
doris回归测试
在我的本机上执行所有回归测试时,发现有一些失败的,我估计是我的集群配置问题(我在一台机器上部署了一个fe节点+一个be节点),通过问社区的同学,回答是不必本地所有的回归测试用例通过,只要自己的测试用例通过就行,估计CI环境上会跑一些回归测试。回归测试的原理和其它数据库回归测试的原理类似,即执行SQL打印输出,保留正确的输出,与新代码跑出的SQL输出比较,如果相同说明新代码没有引入问题。但是doris的回归测试框架,除了这个功能,还扩展出其它功能,能进行超出SQL结果比较的,其它功能的测试。原创 2023-07-18 17:50:29 · 245 阅读 · 0 评论 -
记编译 Doris 的过程
尝试编译 doris,其过程异常坎坷,不过也学到了很多东西。原创 2023-06-27 17:01:30 · 597 阅读 · 0 评论