Apache Doris 系列: 入门篇-数据导入及查询

本文详细介绍了Apache Doris的数据导入方法,包括BrokerLoad、SparkLoad、StreamLoad、RoutineLoad和InsertInto,以及数据查询操作。Doris支持多种数据源和数据格式,提供了丰富的导入方式以适应不同场景需求。在查询方面,Doris支持多种查询语法和函数,并能通过分析查询计划和Profile优化性能。此外,Doris还支持外部表功能,方便与其它数据源交互。

数据导入及查询

本文档主要介绍 Doris 的数据导入及数据查询。

数据导入方式

Doris 为了满足不同业务场景的数据接入需求,提供不丰富的数据导入方式,去支持不同的数据源:外部存储(HDFS,对象存储)、本地文件、消息队列(Kafka)及其他外部业务系统数据库(MySQL、Oracle、SQLServer、PostgreSQL等),支持同步和异步的方式将数据接入到 Doris 中。

Doris 数据计入方式及生态系统:

Broker Load

Broker Load 是一种异步的数据导入方式,通过 Broker 进程访问并读取外部数据源(如:HDFS,对象存储(支持S3协议)),然后通过 MySQL 协议,通过 Doris SQL 语句的方式将导入任务提交到 Doris ,然后通过 show load 查看数据导入进度及状态。

这种导入方式可以以支撑数据量达数百 GB 的导入作业。该导入方式支持 Hive 数据源的导入。

支持的数据格式:csv、orc、parquet

因为Doris 表里的数据是有序的,导入方式需要占用 Doris BE 资源进行对数据进行排序,在大数据量的数据导入的时候尽可能避开业务使用高峰,在资源相对空闲的时候进行导入。

Spark Load

Spark load 通过借助于外部的 Spark 计算资源实现对导入数据进行排序,提高 Doris 大数据量的导入性能并且节省 Doris 集群的计算资源。主要用于初次迁移,大数据量导入 Doris 的场景。对于历史海量数据迁移降低 Doris 集群资源使用及负载有很好的效果。

这种方式需要借助于Broker服务,适用于迁移大数据量(TB 级别)的场景。

Spark 支持将 hive 生成的 bitmap 数据直接导入到 Doris。详见 hive-bitmap-udf 文档

支持的数据格式:csv、orc、parquet

Spark load 是一种异步导入方式,用户需要通过 MySQL 协议创建 Spark 类型导入任务,并通过 SHOW LOAD 查看导入结果

Stream Load

Stream Load 是一种同步的数据导入方式。用户通过 HTTP 协议提交请求并携带原始数据(可以是文件,也可以是内存数据)创建导入。主要用于快速将本地文件或数据流中的数据导入到 Doris。导入命令同步返回导入结果。

通过 SHOW STREAM LOAD方式来查看 Stream load 作业情况,默认 BE 是不记录 Stream Load 的记录,如果你要查看需要在 BE 上启用记录,配置参数是:enable_stream_load_record=true ,具体怎么配置请参照 BE 配置项

这种导入方式支持两种格式的数据 CVS 和 JSON 。

Stream load 支持本地文件导入,或者通过程序导入实时数据流中的数据,Spark Connector 和 Flink Connector 就是基于这种方式实现的。

Routine Load

Routine load 这种方式是以Kafka为数据源,从Kafka中读取数据并导入到Doris对应的数据表中,用户通过 Mysql 客户端提交 Routine Load数据导入作业,Doris 会在生成一个常驻线程,不间断的从 Kafka 中读取数据并存储在对应Doris表中,并自动维护 Kafka Offset位置。

通过SHOW ROUTINE LOAD来查看Routine load作业情况。

Insert Into

这种导入方式和 MySQL 中的 Insert 语句类似,Apache Doris 提供 INSERT INTO tbl SELECT ...; 的方式从 Doris 的表(或者ODBC方式的外表)中读取数据并导入到另一张表。或者通过 INSERT INTO tbl VALUES(...); 插入单条数据,单条插入方式不建议在生产和测试环境中使用,只是演示使用。

INSERT INTO tbl SELECT …这种方式一般是在Doris内部对数据进行加工处理,生成中间汇总表,或者在Doris内部对数据进行ETL操作使用

这种方式是一种同步的数据导入方式。

数据导入

本例我们以 Stream load 导入当时为例,将文件中的数据导入到我们的之前创建的表(expamle_tbl)中 。

CREATE TABLE IF NOT EXISTS test_doris.example_tbl
(
    `timestamp` DATE NOT NULL COMMENT "['0000-01-01', '9999-12-31']",
    `type` TINYINT NOT NULL COMMENT "[-128, 127]",
    `error_code` INT COMMENT "[-2147483648, 2147483647]",
    `error_msg` VARCHAR(300) COMMENT "[1-65533]",
    `op_id` BIGINT COMMENT "[-9223372036854775808, 9223372036854775807]",
    `op_time` DATETIME COMMENT "['0000-01-01 00:00:00', '9999-12-31 23:59:59']",
    `target` float COMMENT "4 字节",
    `source` double COMMENT "8 字节",
    `lost_cost` decimal(12,2) COMMENT "",
    `remark` string COMMENT "1m size",
    `op_userid` LARGEINT COMMENT "[-2^127 + 1 ~ 2^127 - 1]",
    `plate` SMALLINT COMMENT "[-32768, 32767]",
    `iscompleted` boolean COMMENT "true 或者 false"
)
DUPLICATE KEY(`timestamp`, `type`)
DISTRIBUTED BY HASH(`type`) BUCKETS 1
PROPERTIES (
    "replication_allocation" = "tag.location.default: 1"
);

我们创建一个本地文件 example_tbl.csv ,然后将下面的数据写入到这个 csv 文件中,最后我们通过 curl 命令行将这个文件中的数据导入到刚才我们创建的表里。

2022-9-06,1,101,None found,10000000000001,2022-9-06 12:23:24,1000001,2000001,2023.03,This is test doris import,10001,2,true
2022-9-05,2,102,Server Error,10000000000002,2022-9-05 15:23:24,1000003,2000003,202.03,This is test doris import,10002,3,false

我们通过下面的命令将数据导入到 Doris 表中

curl --location-trusted -u root: -T expamle_tbl.csv -H "column_separator:," -H "label:expamle_tbl_import_test" http://localhost:8030/api/test_doris/example_tbl/_stream_load
  1. 本例中 root 是 Doris 的用户名,默认密码是空,若有密码在root用户名后面的冒号后面跟上密码
  2. IP 地址是 FE 的 IP 地址,这里我们是在 FE 的本机,使用了127.0.0.1
  3. 8030 是 FE 的 http 端口,默认是8030
  4. test_doris 是我们的要导入数据表所在的数据库名称
  5. example_tbl:使我们刚才创建的表,也是我们要导入的数据表的名称

导入完成后会返回下面这样的 JSON 格式的响应数据。

{
    "TxnId": 14031,
    "Label": "expamle_tbl_import_test",
    "TwoPhaseCommit": "false",
    "Status": "Success",
    "Message": "OK",
    "NumberTotalRows": 2,
    "NumberLoadedRows": 2,
    "NumberFilteredRows": 0,
    "NumberUnselectedRows": 0,
    "LoadBytes": 250,
    "LoadTimeMs": 142,
    "BeginTxnTimeMs": 1,
    "StreamLoadPutTimeMs": 17,
    "ReadDataTimeMs": 0,
    "WriteDataTimeMs": 24,
    "CommitAndPublishTimeMs": 96
}
  1. Status:导入任务的状态
  2. NumberTotalRows : 我们要导入的总数据记录数
  3. NumberLoadedRows:导入成功的记录数

查询

下面我们对刚才导入的数据表进行查询

select * from example_tbl;

查询指定字段并进行排序

mysql> select timestamp,error_code,op_id from example_tbl order by error_code desc;
+------------+------------+----------------+
| timestamp  | error_code | op_id          |
+------------+------------+----------------+
| 2022-09-05 |        102 | 10000000000002 |
| 2022-09-06 |        101 | 10000000000001 |
+------------+------------+----------------+
2 rows in set (0.02 sec)

Doris 支持多种 select 用法,包括:Join,子查询,With 子句 等,具体参照 SELECT 手册

函数

Doris 提供了丰富的函数支持,包括:日期函数、数组函数、地理位置函数、字符串函数、聚合函数、Bitmap函数、Bitwise函数、条件函数、JSON函数、Hash函数、数学函数、表函数、窗口函数、加密函数、脱敏函数等,具体可以参照 Doris SQL 手册 -> SQL函数

外部表

Doris 支持多种数据的外部表:ODBC外部表 、 Hudi外部表 , Iceberg外部表 , ElasticSearch外部表 , Hive外部表 。

其中 ODBC 外部表我们支持: MySQL、PostgreSQL、Oracle、SQLServer。

创建好外部表之后,可以通过查询外部表的方式将外部表的数据接入到 Doris 里,同时还可以和 Doris 里的表进行关联查询分析。

查询分析

Doris 支持多种方式分析查询瓶颈及优化查询性能

一般情况下出现慢查询,我们可以通过调整一个 Fragment 实例的并行数量 set parallel_fragment_exec_instance_num = 8; 来设置查询并行度,从而提高 CPU 资源利用率和查询效率。详细的参数介绍及设置,参考 查询并行度

我们也可以通过分析 Doris SQL 执行计划和 Profile 来定位分析

查看执行计划

explain select timestamp,error_code,op_id from example_tbl order by error_code desc;

查看 Profile

首先我们需要开启Profile

set enable_profile = true;

然后执行 SQL,我们就可以看到这个 SQL 的 Profile

我们可以通过 Doris 提供的 WEBUI 来进行查看,我们在浏览器里输入FE的地址,登录后就可以看到

http://FE_IP:8030

更详细讲解请参照 查询分析

 

<think>嗯,用户这次提出了一个具体的生产环境问题:Apache Doris 2.0.0版本内存持续增长导致服务无响应。这属于典型的内存泄漏或资源管理问题,需要结合Doris的架构特点来排查。 从用户提供的引用材料看,[1]和[3]提到2.0.0版本新增了高性能倒排索引和高并发查询能力,这些新功能可能是内存问题的诱因。特别是倒排索引会消耗大量内存,而用户场景如果是日志处理(引用[1]提到日志数据写入),频繁的文本分词可能产生内存碎片。 用户作为运维或DBA角色,明显已进入生产落地阶段,问题描述精准且包含版本号,说明技术素养较高。ta的焦虑点在于服务不可用对业务的影响,因此需要立即给出可操作的诊断方案而非理论探讨。 排查路线应该分层递进:首先排除配置不当等低级问题(如JVM参数),再检查查询负载特征(特别是高并发点查可能耗尽线程内存),最后深入新版特性(倒排索引/冷热分离)。内存转储分析虽然有效但耗时,适合作为终极手段。 特别要注意引用[4]提供的安装指南里有时钟同步步骤,这暗示Doris对时间戳一致性敏感——若集群时间漂移可能导致版本控制异常,进而引发内存泄漏(如数据版本无法及时清理)。这点容易被忽视,应该纳入检查清单。 需要强调监控指标的具体阈值,比如BE节点内存使用超过80%就应告警,因为Doris的向量化执行引擎会预分配大块内存。同时提醒用户2.0.0版本可能存在的已知bug,建议先检查社区issue。 </think>针对Apache Doris 2.0.0内存持续增长导致服务无响应的问题,以下是系统化排查步骤及解决方案: --- ### **一、基础检查** 1. **资源配置合理性** - 检查 `be.conf` 中内存参数是否匹配数据规模和并发量: ```bash # BE配置关键参数(示例) mem_limit = 80% # 建议不超过物理内存的80% storage_page_cache_limit = 40% # 数据页缓存占比 load_process_max_memory_limit_bytes = 10737418240 # 单次导入内存上限 ``` - **计算标准**:总内存 ≥(热数据量 × 3 + 并发查询数 × 平均查询内存)× 安全系数(1.5)[^3]。 2. **集群拓扑验证** ```sql SHOW BACKENDS\G; -- 检查各BE节点状态、负载均衡 ``` --- ### **二、内存泄漏排查** 1. **监控内存分配** - 启用**Heap Profile**(需重启BE): ```bash # 在be.conf中添加 enable_heap_profile = true ``` - 通过 `curl http://BE_IP:8040/mem_tracker` 实时查看内存跟踪树,定位异常模块。 2. **分析内存快照** ```bash # 生成内存dump(需安装gperftools) pkill -s SIGUSR1 doris_be ``` - 使用 `pprof` 分析 `heap_dump` 文件,识别泄漏对象: ```bash pprof --svg doris_be heap_dump > leak.svg ``` --- ### **三、查询与负载分析** 1. **高内存查询识别** ```sql -- 查找内存消耗TOP10查询 SELECT query_id, user, memory_usage FROM information_schema.query_statistics ORDER BY memory_usage DESC LIMIT 10; ``` 2. **优化问题查询** - 检查是否包含**全表扫描**(`EXPLAIN` 计划中出现 `OlapScanNode` 且无有效分区裁剪)。 - 对高频点查启用**行存优化**: ```sql ALTER TABLE tbl SET ("store_row_column" = "true"); -- 2.0+支持 ``` --- ### **四、版本特性风险排查** 1. **倒排索引内存控制** - 检查倒排索引列基数,超高基数(如>100万)列可能导致内存暴涨。 - 通过参数限制索引内存: ```bash inverted_index_searcher_cache_limit = 1073741824 # 缓存上限1GB ``` 2. **冷热分离策略验证** ```sql -- 检查冷数据是否及时卸载 SHOW COOLING DOWN TABLES FROM db_name; ``` - 确认 `storage_cooldown_second` 参数生效,避免热数据积压[^1]。 --- ### **五、紧急恢复措施** 1. **内存熔断触发** ```sql -- 动态设置会话级内存上限(单位:字节) SET exec_mem_limit = 2147483648; --查询限流2GB ``` 2. **BE节点优雅重启** ```bash # 避免数据损坏的重启流程 ./stop_be.sh --graceful ./start_be.sh --daemon ``` --- ### **典型问题案例** - **案例1**:倒排索引字段包含超长文本(>10KB),导致分词缓存溢出 → 调整 `inverted_index_parser_cache_size`。 - **案例2**:异步数据压缩线程阻塞,未释放内存 → 升级至2.0.2修复Compaction死锁问题[^4]。 - **案例3**:批量导入未分桶,产生超大Segment → 设置 `max_segment_file_size=1073741824`(1GB)。 --- ### **
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值