自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

a123147abc的博客

原创向量库深度解析：选型、索引原理与生产实践

本文系统解析五大主流向量库（pgvector、Milvus、Weaviate、ChromaDB、Faiss）的定位、优缺点与适用场景，深入拆解FLAT、IVF、HNSW等核心索引原理，并重点分析Milvus的Compaction机制。针对数据治理场景，提供精准选型建议：中小规模优先pgvector或Weaviate，超大规模选择Milvus，开发测试推荐ChromaDB。核心索引推荐HNSW，兼顾检索速度与召回率。全文从理论到实践，为开发者提供清晰的向量库选型逻辑与生产落地指南。

2026-04-01 23:34:58 326

原创 flink 任务优化系列

当 Flink 作业正运行在严重的背压下时，Checkpoint 端到端延迟的主要影响因子将会是传递 Checkpoint Barrier 到所有的算子/子任务的时间。默认情况下，无界聚合算子是逐条处理输入的记录，即：（1）从状态中读取累加器，（2）累加/撤回记录至累加器，（3）将累加器写回状态，（4）下一条记录将再次从（1）开始处理。这是吞吐量和延迟之间的权衡。性能监控：使用 Flink 提供的 Web UI 或其他监控工具实时监控任务的性能指标，如吞吐量、延迟和 Checkpoint 频率等。

2026-02-26 22:18:54 861

原创 Doris 分桶字段查询性能优化方案（类型不匹配场景）

分桶字段中“xxdate”（推测为 dt_date 的笔误）与表字段“dt_date date”类型不匹配——原始建表时，分桶字段“xxdate”实际为 varchar 类型，但查询时使用“dt_date = date(now())”（date 类型条件），导致类型不匹配。最优方案仍是改用 date 类型。从根源上统一“表字段类型”和“分桶字段类型”，将分桶字段中的“xxdate”（原 varchar 类型）修正为与表字段一致的“dt_date date 类型”，彻底避免类型转换；

2026-01-15 17:46:40 616

原创 doris 优化 1.1 版本 JSON 数组字段解析优化

核心优化：通过合并正则匹配、精准化字符集，将单字段解析的 CPU 计算量降低 50%；性能提升关键：分区过滤可大幅减少扫描数据量，是大数量级场景下最有效的优化手段；长期建议：将核心 JSON 解析字段预计算为物理字段，彻底避免查询时的正则解析开销；版本适配：所有优化均基于 Doris 1.1 原生函数，无语法兼容性问题，可直接落地。

2026-01-15 17:41:43 605

原创 flink优化 - 每秒数据几十万条数据关键优化思路

接入层：Kafka分区与并行度匹配，批量压缩传输；计算层：合理并行度+算子链优化+背压控制；状态层：RocksDB优化+状态TTL+增量Checkpoint；逻辑层：简化计算+批量处理+近似算法；资源层：足够CPU/内存+SSD+万兆网；监控层：实时跟踪吞吐量、延迟、背压，持续调优。

2025-11-09 16:25:28 662

原创 flink优化 - 高并发场景下处理库存变动的经典方案

将事件转为库存正负值，利用数据库Upsert能力处理明细和聚合数据，是简单、高效、可靠的方案。其核心是通过“增量变动+主键Upsert”实现实时更新，既支持日常高频操作，又能轻松处理历史数据修正，尤其适合零售、票务、物流等库存密集型场景。

2025-11-09 12:55:45 1114

原创 fluss + paimon 秒级加速查询（fluss本地模式）

fluss + paimon 加速查询

2025-08-19 15:12:31 857

原创 flink同步kafka到paimon，doris加速查询

flink + paimon + doris

2025-06-27 15:47:17 1406

原创 dify + agent +知识库构建自然语言转sql查询Postgresql数据库

dify+agent+知识库构建自然语言转sql查询Postgresql数据库

2025-02-28 15:20:38 4480

原创 streampark-使用记录-备忘

streampark-使用记录

2024-08-13 18:00:32 472

原创 clickhouse sql 语法参考

clickhouse sql 语法参考1. select1.1 将结果中的某些列与 re2 正则表达式匹配，可以使用 COLUMNS 表1.2 ARRAY JOIN - 数组数据平铺1.3 LEFT ARRAY JOIN常用sql 汇总1. 查询数据库表大小1. select1.1 将结果中的某些列与 re2 正则表达式匹配，可以使用 COLUMNS 表COLUMNS(‘regexp’) 例如表: CREATE TABLE default.col_names (aa Int8, ab Int8

2024-08-01 17:55:09 851

原创 flink 最后一个窗口一直没有新数据，窗口不关闭问题

窗口类型：滚动窗口@Override@Override@Override//乱序时间} else {// 10s内没有数据则关闭当前窗口state.f1){System.out.println("触发窗口,maxWatermark + 6000L:" + (maxWatermark + 6000L));} else {System.out.println("正常发送水印");代码部分逻辑说明。

2024-01-17 23:19:34 1367 1

原创 flink sql 13.2 读取与写入数据库的报错（踩坑）

flink sql读取与写入数据库的报错

2023-09-10 16:47:45 1185

原创 flink Mysql CDC（动态加表）、postgresqlCDC 和 CDC无锁算法

flink Mysql CDC（动态加表）、postgresqlCDC 和 CDC无锁算法

2023-07-21 17:34:50 2788 1

原创 Vue2 axios 配置请求后端多个地址

Vue2 axios 配置请求后端多个地址

2023-07-16 22:37:24 2848

原创数仓架构、模型设计与优化、开发规范

离线数仓架构、模型涉及、开发规范

2023-06-19 15:36:02 1704

原创 flink 实时数仓构建与开发[记录一些坑]

flink 实时数仓构建与开发

2023-06-19 15:28:44 1867

原创 java - 报错解决集合

java 报错系列

2023-06-19 14:48:39 706

原创 neo4j - 常用sql

neo4j - 常用sql合集

2023-06-16 21:22:45 1718

原创 doris-sql优化

doris-sql优化

2023-03-20 17:26:37 2226

原创 ExitCodeException exitCode=-1073741701 修复

解决：下载腾讯电脑管家，修复dll。原因：缺少dll文件。

2023-03-16 15:53:04 1166

原创 doris - 数仓拉链表按天全量打宽表性能优化

doris - 数仓拉链表按天全量打宽表性能优化

2023-02-17 10:00:18 2428

原创使用MyBatis Generator自动创建代码

使用MyBatis Generator自动创建代码

2022-12-12 17:16:12 605

原创 postgresSql - select group by 和子查询select 明细外层group by 的性能对比

select group by 和子查询select 明细外层group by 的性能对比

2022-10-18 11:20:07 573

原创 flink cdc - 写入多 topic和动态新增cdc表

flink cdc - 写入多 topic和动态新增cdc表

2022-09-22 11:25:42 2114 2

原创 postgresSql/pgsql 函数使用[json[数组]解析、每日累计，字符串拼接、去重、排序等]

postgresSql/pgsql 函数使用[json[数组]解析、每日累计，字符串拼接、去重、排序等]

2022-09-14 11:16:26 5930

原创 flink 实时计算与RockDB状态存取的猜想

flink 实时计算与RockDB状态存取的猜想

2022-08-31 16:05:36 819 2

原创通过 Gitlab 找回远程、本地都删除的分支代码

通过 Gitlab 找回远程、本地都删除的分支代码

2022-08-29 10:31:49 2788 1

原创记 doris - 开发问题与解决系列

doris - 开发问题与解决系列

2022-08-26 10:00:09 8224 1

原创 hive - 函数使用系列

hive - 函数使用系列

2022-08-01 16:12:05 719

原创记 - 实时数仓开发实践 - doris/pg/flink

实时数仓开发 - doris/pg/flink

2022-07-28 15:02:35 1815

原创 hive - 开发遇到的问题与解决系列

hive - 乱码

2022-07-18 17:33:57 707

原创记 - Flink SQL Upsert Kafka Sink 数据乱序排查与解决思路【业务数据任意修改】

Flink SQL Upsert Kafka Sink 数据乱序

2022-07-18 16:43:20 3437 2

原创 flink sql - 新增pg批量写入参数导致的pg表死锁分析

flink sql - 新增pg批量写入参数导致的pg表死锁分析

2022-06-24 10:30:01 1675

原创记-doris-学习笔记

doris-学习笔记

2022-06-22 17:50:48 2718

原创 hive-sql 性能优化

hive sql 性能优化

2022-06-13 11:21:00 427

原创 hive - 字符串string和bigint类型的坑

hive 的string与bigint的比较

2022-06-10 13:45:20 4751 1

原创 flink sql 数据乱序或数据被覆盖

flink sql 数据乱序原因分析1、多表left join 乱序1.1、flink sql 如下：2、多表与主表关联数据乱序1、多表left join 乱序1.1、flink sql 如下：sink to pg 表的主键：idselect c1.id,c1.name1,c2.name2,c3.name3,c1.num from flink_multilist_left_join_check1 c1left join flink_multilist_left_join_check2 c2 on

2022-04-27 13:46:08 3332

原创 hive - return code （数字） from org.apache.hadoop.hive.ql.exec错误系列集合

hvie - return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. Unable to move source hdfs://XXX to destination hdfs://xxx原因：执行hive任务的用户对hdfs://xxx没有操作权限解决：对目录授权命令：hdfs dfs -chown -R use:group hdfs://xxx...

2022-04-20 18:41:39 7117 4

原创 flink sql 特殊字符做分隔符做参数传参给自定义函数注意项

flink sql 传参给自定义函数注意项path = ‘123.323’;flink sql : pathLength(path,’.’) as depth注意项：在flink sql 中要使用单引号单杠备注：其他语言：可能是双引号双杠转义UDF函数： public int eval(String path, String sep) { if(path == null || path.trim().length() == 0){ return 0

2022-03-01 16:06:01 2816

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除