Apache Doris 使用指南：从入门到生产实践

轩昂7K

已于 2025-05-06 10:23:42 修改

阅读量485

点赞数 5

分类专栏：分析型数据库文章标签： apache

于 2025-05-06 10:18:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2302_77782958/article/details/147728559

版权

分析型数据库专栏收录该内容

1 篇文章

订阅专栏

目录

一、Doris 核心概念

1.1 架构组成

1.2 数据模型

二、Doris 部署方式

2.1 单机部署（测试环境）

2.2 集群部署（生产环境）

三、数据操作指南

3.1 数据库与表管理

3.2 数据导入方式

3.2.1 批量导入

3.2.2 实时导入

3.3 数据查询示例

四、性能优化实践

4.1 分区分桶策略

4.2 索引优化

4.3 查询优化技巧

Apache Doris 是一款高性能、实时的分析型数据库，广泛应用于大数据分析、实时报表等场景。本文将全面介绍 Doris 的核心概念、部署方式、数据操作及优化技巧。

下面附上官网地址：

Doris官网https://doris.apache.org/zh-CN/docs/dev/gettingStarted/what-is-apache-doris

一、Doris 核心概念

1.1 架构组成

FE (Frontend)：负责元数据管理、客户端连接和查询计划生成
BE (Backend)：负责数据存储和查询执行
Broker：用于访问外部存储系统（如HDFS/S3）

1.2 数据模型

明细模型（Duplicate Key）：适合原始数据存储
聚合模型（Aggregate Key）：预聚合提高查询性能
主键模型（Unique Key）：支持实时更新
更新模型（Merge-on-Write）：2.0版本新增，更高性能更新

二、Doris 部署方式

2.1 单机部署（测试环境）

# 下载解压
wget https://apache-doris-releases.oss-accelerate.aliyuncs.com/doris-1.2.4-bin.tar.gz
tar -zxvf doris-1.2.4-bin.tar.gz

# 启动FE
cd fe/bin/
./start_fe.sh --daemon

# 启动BE
cd be/bin/
./start_be.sh --daemon

2.2 集群部署（生产环境）

-- 在FE节点添加BE节点
ALTER SYSTEM ADD BACKEND "be1:9050";
ALTER SYSTEM ADD BACKEND "be2:9050";
ALTER SYSTEM ADD BACKEND "be3:9050";

-- 查看节点状态
SHOW PROC '/backends';

三、数据操作指南

3.1 数据库与表管理

-- 创建数据库
CREATE DATABASE demo_db;

-- 创建明细表
CREATE TABLE demo_db.user_behavior (
    user_id LARGEINT NOT NULL,
    item_id LARGEINT NOT NULL,
    behavior_type VARCHAR(20),
    ts DATETIME NOT NULL
)
DUPLICATE KEY(user_id, item_id)
DISTRIBUTED BY HASH(user_id) BUCKETS 10
PROPERTIES (
    "replication_num" = "3",
    "storage_medium" = "SSD"
);

-- 创建聚合表
CREATE TABLE demo_db.sales_agg (
    dt DATE NOT NULL,
    product_id LARGEINT NOT NULL,
    user_region VARCHAR(50),
    SUM(sales_amount) BIGINT SUM,
    COUNT(sales_count) BIGINT COUNT
)
AGGREGATE KEY(dt, product_id, user_region)
DISTRIBUTED BY HASH(product_id) BUCKETS 10;

3.2 数据导入方式

3.2.1 批量导入

-- 本地文件导入
LOAD LABEL demo_db.label_20231101
(DATA INFILE("hdfs://path/to/file.parquet")
INTO TABLE user_behavior
FORMAT AS "parquet")
WITH BROKER "hdfs_broker";

-- Stream Load（HTTP API）
curl --location-trusted -u user:passwd \
-H "column_separator:," \
-T data.csv \
http://fe_host:8030/api/demo_db/user_behavior/_stream_load

3.2.2 实时导入

-- Kafka实时接入
CREATE ROUTINE LOAD demo_db.kafka_load ON user_behavior
COLUMNS(user_id, item_id, behavior_type, ts)
PROPERTIES (
    "desired_concurrent_number" = "3",
    "max_batch_interval" = "20",
    "max_batch_rows" = "300000"
)
FROM KAFKA (
    "kafka_broker_list" = "broker1:9092,broker2:9092",
    "kafka_topic" = "user_events",
    "property.group.id" = "doris_consumer"
);

3.3 数据查询示例

-- 基础查询
SELECT 
    user_region,
    SUM(sales_amount) AS total_sales
FROM sales_agg
WHERE dt BETWEEN '2023-10-01' AND '2023-10-31'
GROUP BY user_region
ORDER BY total_sales DESC
LIMIT 10;

-- 窗口函数
SELECT 
    user_id,
    ts,
    behavior_type,
    COUNT(*) OVER (PARTITION BY user_id ORDER BY ts RANGE INTERVAL 1 HOUR PRECEDING) AS hourly_actions
FROM user_behavior;

-- 物化视图加速查询
CREATE MATERIALIZED VIEW mv_user_behavior_hourly
REFRESH EVERY INTERVAL 1 HOUR
AS
SELECT 
    user_id,
    DATE_TRUNC('HOUR', ts) AS hour,
    COUNT(*) AS action_count,
    SUM(CASE WHEN behavior_type = 'buy' THEN 1 ELSE 0 END) AS buy_count
FROM user_behavior
GROUP BY user_id, DATE_TRUNC('HOUR', ts);

四、性能优化实践

4.1 分区分桶策略

-- 按天分区+哈希分桶
CREATE TABLE time_series_data (
    ts DATETIME NOT NULL,
    device_id LARGEINT NOT NULL,
    metric_value DOUBLE
)
ENGINE=OLAP
DUPLICATE KEY(ts, device_id)
PARTITION BY RANGE(ts) (
    PARTITION p202301 VALUES LESS THAN ('2023-02-01'),
    PARTITION p202302 VALUES LESS THAN ('2023-03-01'),
    PARTITION p202303 VALUES LESS THAN ('2023-04-01')
)
DISTRIBUTED BY HASH(device_id) BUCKETS 32
PROPERTIES (
    "replication_num" = "3",
    "storage_medium" = "SSD",
    "storage_cooldown_time" = "7 days"
);

4.2 索引优化

-- 添加倒排索引
ALTER TABLE user_behavior 
ADD INDEX idx_behavior_type (behavior_type) USING INVERTED;

-- 添加Bloom Filter索引
ALTER TABLE sales_agg 
ADD INDEX bf_product_id (product_id) USING BLOOM_FILTER;

4.3 查询优化技巧

-- 使用分区裁剪
SELECT * FROM time_series_data 
WHERE ts BETWEEN '2023-03-15' AND '2023-03-20';

-- 使用Bucket裁剪
SELECT * FROM user_behavior 
WHERE user_id = 10086;

-- 使用Colocate Group
CREATE TABLE colocate_table (
    user_id BIGINT,
    item_id BIGINT
)
DISTRIBUTED BY HASH(user_id) BUCKETS 10
PROPERTIES (
    "colocate_with" = "user_group"
);

本文部分技术描述基于Apache Doris官方文档[1]及社区公认技术实践，相关SQL语法示例参考自开源项目文档。
[1] 官方文档链接：https://doris.apache.org/docs/

博客等级

码龄2年

37
原创

552
点赞

462
收藏

386
粉丝

关注

私信

热门文章

分类专栏

分析型数据库 1篇
大数据 5篇
Java 9篇
关系型数据库 5篇
MySQL 4篇
JSP 2篇
XML 1篇
Javascript 13篇
话题篇 1篇
新闻看法 1篇
jQuery 2篇
C语言 1篇
JavaWeb 5篇

最新评论

JQuery下载和一些语法
CSDN-Ada助手: 恭喜你写了第20篇博客！标题中的JQuery下载和一些语法一定是一个很有吸引力的话题。持续创作绝对是一个了不起的成就，你的努力和热情值得赞扬。作为下一步的创作建议，我想提议你考虑探索更多与JQuery相关的主题，比如如何运用JQuery优化网页性能或者介绍一些实用的JQuery插件。听取读者的反馈也是很重要的，他们的意见和建议可以帮助你更好地提升自己的写作技巧。期待看到你的下一篇博客，继续加油！
JavaScript的一道题型
CSDN-Ada助手: 恭喜您写了第18篇博客！看到标题我就感到非常兴奋，因为JavaScript的题型总是让我挑战自己的逻辑思维。您的文章内容一定非常精彩，我迫不及待想要读到您精心解析的这道题了。不过，我也想提个谦虚的建议，如果您可以考虑在下一篇博客中分享一些实际应用场景中的JavaScript题目，那将会更加有趣和有益。期待您的下一次创作！
近期JavaScript练习总结
CSDN-Ada助手: 恭喜你写了第19篇博客！看到你近期的JavaScript练习总结，感觉你对这个领域的知识已经有了很深的理解和积累。不过我也建议你在下一步的创作中，可以尝试结合实际案例，或者深入探讨一些具有挑战性的主题，这样可以更好地提升自己的技术水平。期待你更多精彩的分享！
jsp中的js代码
CSDN-Ada助手: 恭喜您撰写了第12篇博客！标题为“jsp中的js代码”，很高兴看到您不断分享有关JSP和JS代码的知识。您在这篇博客中的内容非常有价值，我深受启发。在下一步的创作中，或许您可以考虑分享一些关于如何优化JSP中的JS代码的技巧和经验，或者介绍一些实用的JSP和JS代码库。这样的话，读者们会更加深入了解如何在JSP中更好地利用JS代码，并提高网站的性能和用户体验。继续努力创作，并期待您未来更多精彩的博客！谦虚地说，我相信您的经验和见解将继续对读者们产生积极的影响。
js的基本用法
CSDN-Ada助手: 恭喜您写了第13篇博客，题目为“js的基本用法”。能够持续创作并分享知识是一件了不起的事情，您的努力和坚持让我们受益匪浅。希望您在下一篇博客中可以深入探讨一些高级的js用法，或者分享一些实际项目中的应用经验，这样可以让我们更全面地了解js的应用。期待您更多的精彩分享！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。