Doris
文章平均质量分 53
wangleigiser
这个作者很懒,什么都没留下…
展开
-
Apache doris profile文件获取和格式化
Apache doris profile文件获取和格式化原创 2023-05-05 16:26:42 · 661 阅读 · 0 评论 -
Doris Broker Load高并发导入
当发现Broker Load导入效率不高,很可能是并发度原因,可以尝试配置如下参数:原创 2023-03-06 10:18:17 · 525 阅读 · 1 评论 -
Doris通过Flink CDC接入MySQL实战
Doris通过Flink CDC接入MySQL实战原创 2023-02-15 13:18:54 · 1628 阅读 · 0 评论 -
Doris部分列更新在广告行业应用
背景:业务需要在不同的时间点对同一个session_id上的广告行为(展示、点击、转换等)数据的更新。原创 2022-12-27 18:41:16 · 1338 阅读 · 0 评论 -
Doris DUPLICATE KEY数据更新&覆盖方案
因为业务侧存在数据口径和ETL出错的问题,需要对数据历史部分数据进行删除后重新生成并写入的需求。原创 2022-12-05 16:58:59 · 1871 阅读 · 0 评论 -
Doris DUPLICATE KEY数据覆写方案
因为业务侧存在数据口径和ETL出错的问题,需要对数据历史部分数据进行删除后重新生成并写入的需求。原创 2022-12-05 16:57:25 · 1170 阅读 · 0 评论 -
Doris多列分区操作
Doris多列分区操作原创 2022-12-02 23:36:58 · 652 阅读 · 0 评论 -
采集Doris的FE和BE 日志到对象存储
【代码】采集Doris的FE和BE 日志到对象存储。原创 2022-11-15 14:19:06 · 519 阅读 · 0 评论 -
Doris物化视图使用实战
物化视图是将预先计算(根据定义好的 SELECT 语句)好的数据集,存储在 Doris 中的一个特殊的表。物化视图的出现主要是为了满足用户,既能对原始明细数据的任意维度分析,也能快速的对固定维度进行分析查询。原创 2022-10-21 14:21:16 · 248 阅读 · 0 评论 -
Doris Broker Load入门实战
Doris安装参照官网:https://doris.apache.org/zh-CN/docs/get-starting/get-starting.html#%E5%8D%95%E6%9C%BA%E9%83%A8%E7%BD%B2。具体参加:https://doris.apache.org/zh-CN/docs/dev/sql-manual/sql-reference/Data-Manipulation-Statements/Load/BROKER-LOAD。查看HDFS目录,确保HDFS服务正常。原创 2022-10-21 13:58:14 · 1414 阅读 · 0 评论 -
数据库的写缓冲、不可变性和有序性
写缓冲增加内存缓冲区总是对写放大有积极的影响。在像WiredTiger和LA树这样使用原地更新的数据结构中,内存缓冲区有助于通过合并多个相同页的写入来均摊它们的开销。换句话说,缓冲有助于减少写放大。不可变数据结构在不可变数据结构中(如多组件LSM树和FD树),缓冲具有类似的积极作用,但是以未来发生的重写为代价,这些重写发生在将数据从一个不可变的层移动到另一个不可变层时。换句话说,使用不可变性可能会将写放大延迟。同时,使用不可变性对并发性和空间放大有积极的影响,因为所讨论的大多数不可变结构使用的页是全满原创 2022-10-18 00:05:25 · 171 阅读 · 0 评论 -
LSM树中的并发技术解密
LSM树并发的难点LSM树中的并发挑战主要与切换表视图(在刷写和压缩过程中更改的内存驻留表和磁盘驻留表的集合)和日志同步有关。memtable通常也是并发访问的。LSM树并发需要遵守的原则1.新的memtable必须对读写可用。2. 旧的(正在刷写的)memtable必须对读保持可见。3. 正在刷写的memtable必须写到磁盘上。4. 丢弃已经刷写的memtable与创建刷写磁盘驻留表这两个操作必须被原子地执行。5. 预写日志中,记录之前曾应用于被刷写memtable的操作的日志段必须被原创 2022-10-15 23:16:15 · 371 阅读 · 0 评论 -
布隆过滤器原理和使用
LSM读放大问题背景LSM树中读放大的来源是,我们必须寻址多个磁盘驻留表,以便完成读取操作。这是因为我们不一定能预先知道一个磁盘驻留表是否包含要搜索的键指向的数据记录。LSM使用bloomfilter减少数据扫描防止表查询的方法之一是在元数据中存储其键的范围(存储给定表中的最小和最大键),并检查要搜索的键是否在该表的范围之内。这一信息是不精确的,它只能告诉我们数据记录是否可能会出现在表中。为了改进这种情况,包括Apache Cassandra和RocksDB在内的许多实现都使用一种称为布隆过滤器(Bl原创 2022-10-15 17:16:28 · 578 阅读 · 1 评论 -
RUM猜想
有一种流行的存储结构开销模型考虑了如下三个因素:读取(Read)、更新(Update)和内存(Memory)开销,它被称为RUM猜想。*** RUM猜想指出,读取(Read)、更新(Update)和内存(Memory)开销减少其中两项开销将不可避免地导致第三项开销的恶化,并且优化只能以牺牲三个参数中的一个为代价。***B树的RUM我们可以根据这三个参数对不同的存储引擎进行比较,以了解它们针对哪些参数进行了优化,以及其中隐含着哪些可能的权衡。一个理想的解决方案是拥有最小的读取开销,同时保持较低的内存与写原创 2022-10-15 00:11:54 · 228 阅读 · 0 评论 -
PostMan工具支持DorisStreamLoad
3. 《Offer来了:Java面试核心知识点精讲(原理篇)(博文视点出品)》https://item.jd.com/12737278.html。2. 《Offer来了:Java面试核心知识点精讲(第2版)(博文视点出品)》https://item.jd.com/13200939.html。4. 《Offer来了:Java面试核心知识点精讲(框架篇)(博文视点出品) https://item.jd.com/12868220.html。password:your_pwd【Doris默认root密码为空】原创 2022-10-14 14:29:18 · 2639 阅读 · 0 评论 -
Doris支持ONLY_FULL_GROUP_BY需求
2. 《Offer来了:Java面试核心知识点精讲(第2版)(博文视点出品)》https://item.jd.com/13200939.html。3. 《Offer来了:Java面试核心知识点精讲(原理篇)(博文视点出品)》https://item.jd.com/12737278.html。可以用any_value或者max、min替换实现。详细可以参考:https://dev.mysql.com/doc/refman/5.7/en/group-by-handling.html。原创 2022-09-26 14:00:31 · 1679 阅读 · 0 评论 -
Doris行转列之-Explode函数使用
在业务中我们经常会遇到将某一个列上的数据“散开”,然后进行计算,统计和分析。也就是典型的行列转化的需求。例如我们有一个订单表,有bill_code和bill_state。其中bill_state列是个多个状态(待支付、支付中、支付完成)使用逗号隔开的字符串,我们需要按列对多个状态展开进行统计和分析。这样的需求在Doirs中可以通过explode_split函数完成。原创 2022-09-23 16:54:44 · 4456 阅读 · 0 评论 -
Doris stream load压缩传输数据
Doris stream load压缩传输数据核心参数为:-H “compress_type:GZ”原创 2022-09-07 13:01:27 · 350 阅读 · 0 评论 -
FlinkCDC将MySQL接入Doris实战
FlinkCDC将MySQL接入DorisMySQL安装Doris安装Scala环境安装Flink 环境安装通过Flink CDC将MySQL数据同步到Doirs任务编写1. 《图解Spark 大数据快速分析实战(异步图书出品)》 2. 《Offer来了:Java面试核心知识点精讲(第2版)(博文视点出品)》3. 《Offer来了:Java面试核心知识点精讲(原理篇)(博文视点出品)》 4. 《Offer来了:Java面试核心知识点精讲(框架篇)(博文视点出品)》原创 2022-09-05 21:52:56 · 4615 阅读 · 0 评论 -
Doris Routine Load正则表达实战
Doris Routine Load正则表达实战 Doirs库、表regexp_extractSpark内核和应用实战原创 2022-08-23 20:40:31 · 1009 阅读 · 0 评论 -
Doris写入超时问题处理
Doris写入超时Doris get tableList write lock time outDoris open tablets ...... timeout原创 2022-08-04 09:51:09 · 3950 阅读 · 3 评论 -
Doris Routine Load数据导入实战【每秒导入16w】
我写了一个java程序模拟生成kafka数据并发送到kafka,该程序模拟生成5000万条数据并发送到kafka。京东地址https//item.jd.com/13613302.html。从任务状态可看出662829毫秒写入105533558条数数据,大概。最后宣传下我的书Spark内核和应用实战,可以购买我的新书。(105533558/662829约等于159216)数据。执行如下命令下载源码并编译执行,注意这些代码中默认的配为。...原创 2022-07-29 17:26:57 · 1196 阅读 · 0 评论 -
Doris开启Stream Load记录
Doris开启StreamLoad记录。原创 2022-07-20 13:06:29 · 1146 阅读 · 0 评论 -
Doris Routine Load接入Kafka0.8.0实战
Doris默认支持Kafka0.10.0.0(含)以上版本。DoirsKafka客户端通过librdkafka实现,librdkafka通过broker.version.fallback和api.version.request来兼容历史的Kafka版本。具体参数参照https//docs.confluent.io/3.1.1/clients/librdkafka/CONFIGURATION_8md.html。broker.version.fallback兼容历史的版本号,默认为0.9.0。...原创 2022-07-18 14:52:23 · 737 阅读 · 0 评论 -
基于Spark3.3.0的doris-spark-connector实战
想要更全面了解Spark内核和应用实战,可以购买我的新书。《图解Spark 大数据快速分析实战》(王磊))执行vim custom_env.sh ,修改custom_env.sh文件,添加如下内容:基于spark3.3.0编译编译结果2. spark-3.3.0 环境配置下载spark二进制压缩包并解压。spark环境配置:vim /etc/profile将编译好的spark-doris-connector-3.3_2.12-1.0.0-SNAPSH原创 2022-07-15 11:46:07 · 1691 阅读 · 0 评论 -
Doris整合Iceberg+Spark联邦查询实战
Doris整合Iceberg+Spark联邦查询实战原创 2022-07-13 17:58:44 · 2074 阅读 · 0 评论 -
Doris Stream Load导入CSV文件
Doris Stream Load导入CSV文件原创 2022-07-13 12:58:03 · 2189 阅读 · 0 评论 -
Doris创建表、视图,用户和授权
Doris用户和授权原创 2022-07-08 14:03:29 · 1756 阅读 · 0 评论 -
GO连接Doris查询实战
GO连接Doris查询实战原创 2022-07-07 17:24:19 · 1748 阅读 · 0 评论 -
Python连接Doirs查询实战
Python连接Doirs查询实战原创 2022-07-07 11:20:45 · 5033 阅读 · 1 评论 -
PHP连接Doris查询实战
PHP连接Doris原创 2022-07-06 15:41:29 · 1360 阅读 · 0 评论 -
Doris整合Iceberg+Spark联邦查询实战
Doris整合Iceberg+Spark联邦查询实战原创 2022-06-23 14:53:06 · 1153 阅读 · 0 评论 -
Doris FE节点恢复
Doris FE节点恢复原创 2022-06-01 15:47:28 · 397 阅读 · 0 评论 -
Pulsar 数据接入Doris
Pulsar数据导入Doris原创 2022-06-01 14:49:57 · 535 阅读 · 0 评论 -
Doris时区设置
问题提出因为公司是全球业务,数据按照UTC时区存储数据,那么如何将Doris时区设置为UTC时区?发现通过set global time_zone = ‘+0:00’;时区并不是UTC。##时区设置mysql> set global time_zone = '+0:00';##时区查看mysql> show variables like '%time_zone%';+------------------+---------------+| Variable_name原创 2022-05-26 14:23:51 · 1365 阅读 · 0 评论 -
Spark-Doris-Connecter By pySpark
pyspark doris spark原创 2022-05-12 10:43:10 · 867 阅读 · 0 评论 -
Spark-Doris-Connecter实战
Doris Spark 大数据原创 2022-05-12 10:07:25 · 913 阅读 · 0 评论 -
Doris Docker 部署
Doris Docker 部署原创 2022-05-11 11:58:33 · 2916 阅读 · 0 评论