自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(86)
  • 收藏
  • 关注

原创 向量库深度解析:选型、索引原理与生产实践

本文系统解析五大主流向量库(pgvector、Milvus、Weaviate、ChromaDB、Faiss)的定位、优缺点与适用场景,深入拆解FLAT、IVF、HNSW等核心索引原理,并重点分析Milvus的Compaction机制。针对数据治理场景,提供精准选型建议:中小规模优先pgvector或Weaviate,超大规模选择Milvus,开发测试推荐ChromaDB。核心索引推荐HNSW,兼顾检索速度与召回率。全文从理论到实践,为开发者提供清晰的向量库选型逻辑与生产落地指南。

2026-04-01 23:34:58 326

原创 flink 任务优化系列

当 Flink 作业正运行在严重的背压下时,Checkpoint 端到端延迟的主要影响因子将会是传递 Checkpoint Barrier 到 所有的算子/子任务的时间。默认情况下,无界聚合算子是逐条处理输入的记录,即:(1)从状态中读取累加器,(2)累加/撤回记录至累加器,(3)将累加器写回状态,(4)下一条记录将再次从(1)开始处理。这是吞吐量和延迟之间的权衡。性能监控:使用 Flink 提供的 Web UI 或其他监控工具实时监控任务的性能指标,如吞吐量、延迟和 Checkpoint 频率等。

2026-02-26 22:18:54 861

原创 Doris 分桶字段查询性能优化方案(类型不匹配场景)

分桶字段中“xxdate”(推测为 dt_date 的笔误)与表字段“dt_date date”类型不匹配——原始建表时,分桶字段“xxdate”实际为 varchar 类型,但查询时使用“dt_date = date(now())”(date 类型条件),导致类型不匹配。最优方案仍是改用 date 类型。从根源上统一“表字段类型”和“分桶字段类型”,将分桶字段中的“xxdate”(原 varchar 类型)修正为与表字段一致的“dt_date date 类型”,彻底避免类型转换;

2026-01-15 17:46:40 616

原创 doris 优化 1.1 版本 JSON 数组字段解析优化

核心优化:通过合并正则匹配、精准化字符集,将单字段解析的 CPU 计算量降低 50%;性能提升关键:分区过滤可大幅减少扫描数据量,是大数量级场景下最有效的优化手段;长期建议:将核心 JSON 解析字段预计算为物理字段,彻底避免查询时的正则解析开销;版本适配:所有优化均基于 Doris 1.1 原生函数,无语法兼容性问题,可直接落地。

2026-01-15 17:41:43 605

原创 flink优化 - 每秒数据几十万条数据关键优化思路

接入层:Kafka分区与并行度匹配,批量压缩传输;计算层:合理并行度+算子链优化+背压控制;状态层:RocksDB优化+状态TTL+增量Checkpoint;逻辑层:简化计算+批量处理+近似算法;资源层:足够CPU/内存+SSD+万兆网;监控层:实时跟踪吞吐量、延迟、背压,持续调优。

2025-11-09 16:25:28 662

原创 flink优化 - 高并发场景下处理库存变动的经典方案

将事件转为库存正负值,利用数据库Upsert能力处理明细和聚合数据,是简单、高效、可靠的方案。其核心是通过“增量变动+主键Upsert”实现实时更新,既支持日常高频操作,又能轻松处理历史数据修正,尤其适合零售、票务、物流等库存密集型场景。

2025-11-09 12:55:45 1114

原创 fluss + paimon 秒级加速查询(fluss本地模式)

fluss + paimon 加速查询

2025-08-19 15:12:31 857

原创 flink同步kafka到paimon,doris加速查询

flink + paimon + doris

2025-06-27 15:47:17 1406

原创 dify + agent +知识库构建自然语言转sql查询Postgresql数据库

dify+agent+知识库构建自然语言转sql查询Postgresql数据库

2025-02-28 15:20:38 4480

原创 streampark-使用记录-备忘

streampark-使用记录

2024-08-13 18:00:32 472

原创 clickhouse sql 语法参考

clickhouse sql 语法参考1. select1.1 将结果中的某些列与 re2 正则表达式匹配,可以使用 COLUMNS 表1.2 ARRAY JOIN - 数组数据平铺1.3 LEFT ARRAY JOIN常用sql 汇总1. 查询数据库表大小1. select1.1 将结果中的某些列与 re2 正则表达式匹配,可以使用 COLUMNS 表COLUMNS(‘regexp’) 例如表: CREATE TABLE default.col_names (aa Int8, ab Int8

2024-08-01 17:55:09 851

原创 flink 最后一个窗口一直没有新数据,窗口不关闭问题

窗口类型:滚动窗口@Override@Override@Override//乱序时间} else {// 10s内没有数据则关闭当前窗口state.f1){System.out.println("触发窗口,maxWatermark + 6000L:" + (maxWatermark + 6000L));} else {System.out.println("正常发送水印");代码部分逻辑说明。

2024-01-17 23:19:34 1367 1

原创 flink sql 13.2 读取与写入数据库的报错(踩坑)

flink sql读取与写入数据库的报错

2023-09-10 16:47:45 1185

原创 flink Mysql CDC(动态加表)、postgresqlCDC 和 CDC无锁算法

flink Mysql CDC(动态加表)、postgresqlCDC 和 CDC无锁算法

2023-07-21 17:34:50 2788 1

原创 Vue2 axios 配置请求后端多个地址

Vue2 axios 配置请求后端多个地址

2023-07-16 22:37:24 2848

原创 数仓架构、模型设计与优化、开发规范

离线数仓架构、模型涉及、开发规范

2023-06-19 15:36:02 1704

原创 flink 实时数仓构建与开发[记录一些坑]

flink 实时数仓构建与开发

2023-06-19 15:28:44 1867

原创 java - 报错解决集合

java 报错系列

2023-06-19 14:48:39 706

原创 neo4j - 常用sql

neo4j - 常用sql合集

2023-06-16 21:22:45 1718

原创 doris-sql优化

doris-sql优化

2023-03-20 17:26:37 2226

原创 ExitCodeException exitCode=-1073741701 修复

解决:下载腾讯电脑管家,修复dll。原因:缺少dll文件。

2023-03-16 15:53:04 1166

原创 doris - 数仓 拉链表 按天全量打宽表性能优化

doris - 数仓 拉链表 按天全量打宽表性能优化

2023-02-17 10:00:18 2428

原创 使用MyBatis Generator自动创建代码

使用MyBatis Generator自动创建代码

2022-12-12 17:16:12 605

原创 postgresSql - select group by 和 子查询select 明细外层group by 的性能对比

select group by 和 子查询select 明细外层group by 的性能对比

2022-10-18 11:20:07 573

原创 flink cdc - 写入多 topic和动态新增cdc表

flink cdc - 写入多 topic和动态新增cdc表

2022-09-22 11:25:42 2114 2

原创 postgresSql/pgsql 函数使用[json[数组]解析、每日累计,字符串拼接、去重、排序 等]

postgresSql/pgsql 函数使用[json[数组]解析、每日累计,字符串拼接、去重、排序 等]

2022-09-14 11:16:26 5930

原创 flink 实时计算与RockDB状态存取的猜想

flink 实时计算与RockDB状态存取的猜想

2022-08-31 16:05:36 819 2

原创 通过 Gitlab 找回远程、本地都删除的分支代码

通过 Gitlab 找回远程、本地都删除的分支代码

2022-08-29 10:31:49 2788 1

原创 记 doris - 开发问题与解决系列

doris - 开发问题与解决系列

2022-08-26 10:00:09 8224 1

原创 hive - 函数使用系列

hive - 函数使用系列

2022-08-01 16:12:05 719

原创 记 - 实时数仓开发实践 - doris/pg/flink

实时数仓开发 - doris/pg/flink

2022-07-28 15:02:35 1815

原创 hive - 开发遇到的问题与解决系列

hive - 乱码

2022-07-18 17:33:57 707

原创 记 - Flink SQL Upsert Kafka Sink 数据乱序排查与解决思路【业务数据任意修改】

Flink SQL Upsert Kafka Sink 数据乱序

2022-07-18 16:43:20 3437 2

原创 flink sql - 新增pg批量写入参数导致的pg表死锁分析

flink sql - 新增pg批量写入参数导致的pg表死锁分析

2022-06-24 10:30:01 1675

原创 记-doris-学习笔记

doris-学习笔记

2022-06-22 17:50:48 2718

原创 hive-sql 性能优化

hive sql 性能优化

2022-06-13 11:21:00 427

原创 hive - 字符串string和bigint类型的坑

hive 的string与bigint的比较

2022-06-10 13:45:20 4751 1

原创 flink sql 数据乱序或数据被覆盖

flink sql 数据乱序原因分析1、多表left join 乱序1.1、flink sql 如下:2、多表与主表关联数据乱序1、多表left join 乱序1.1、flink sql 如下:sink to pg 表的主键:idselect c1.id,c1.name1,c2.name2,c3.name3,c1.num from flink_multilist_left_join_check1 c1left join flink_multilist_left_join_check2 c2 on

2022-04-27 13:46:08 3332

原创 hive - return code (数字) from org.apache.hadoop.hive.ql.exec错误系列集合

hvie - return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. Unable to move source hdfs://XXX to destination hdfs://xxx原因:执行hive任务的用户对hdfs://xxx没有操作权限解决:对目录授权命令:hdfs dfs -chown -R use:group hdfs://xxx...

2022-04-20 18:41:39 7117 4

原创 flink sql 特殊字符做分隔符做参数传参给自定义函数注意项

flink sql 传参给自定义函数注意项path = ‘123.323’;flink sql : pathLength(path,’.’) as depth注意项:在flink sql 中要使用 单引号单杠备注:其他语言:可能是双引号双杠转义UDF函数: public int eval(String path, String sep) { if(path == null || path.trim().length() == 0){ return 0

2022-03-01 16:06:01 2816

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除