- 博客(86)
- 收藏
- 关注
原创 向量库深度解析:选型、索引原理与生产实践
本文系统解析五大主流向量库(pgvector、Milvus、Weaviate、ChromaDB、Faiss)的定位、优缺点与适用场景,深入拆解FLAT、IVF、HNSW等核心索引原理,并重点分析Milvus的Compaction机制。针对数据治理场景,提供精准选型建议:中小规模优先pgvector或Weaviate,超大规模选择Milvus,开发测试推荐ChromaDB。核心索引推荐HNSW,兼顾检索速度与召回率。全文从理论到实践,为开发者提供清晰的向量库选型逻辑与生产落地指南。
2026-04-01 23:34:58
326
原创 flink 任务优化系列
当 Flink 作业正运行在严重的背压下时,Checkpoint 端到端延迟的主要影响因子将会是传递 Checkpoint Barrier 到 所有的算子/子任务的时间。默认情况下,无界聚合算子是逐条处理输入的记录,即:(1)从状态中读取累加器,(2)累加/撤回记录至累加器,(3)将累加器写回状态,(4)下一条记录将再次从(1)开始处理。这是吞吐量和延迟之间的权衡。性能监控:使用 Flink 提供的 Web UI 或其他监控工具实时监控任务的性能指标,如吞吐量、延迟和 Checkpoint 频率等。
2026-02-26 22:18:54
861
原创 Doris 分桶字段查询性能优化方案(类型不匹配场景)
分桶字段中“xxdate”(推测为 dt_date 的笔误)与表字段“dt_date date”类型不匹配——原始建表时,分桶字段“xxdate”实际为 varchar 类型,但查询时使用“dt_date = date(now())”(date 类型条件),导致类型不匹配。最优方案仍是改用 date 类型。从根源上统一“表字段类型”和“分桶字段类型”,将分桶字段中的“xxdate”(原 varchar 类型)修正为与表字段一致的“dt_date date 类型”,彻底避免类型转换;
2026-01-15 17:46:40
616
原创 doris 优化 1.1 版本 JSON 数组字段解析优化
核心优化:通过合并正则匹配、精准化字符集,将单字段解析的 CPU 计算量降低 50%;性能提升关键:分区过滤可大幅减少扫描数据量,是大数量级场景下最有效的优化手段;长期建议:将核心 JSON 解析字段预计算为物理字段,彻底避免查询时的正则解析开销;版本适配:所有优化均基于 Doris 1.1 原生函数,无语法兼容性问题,可直接落地。
2026-01-15 17:41:43
605
原创 flink优化 - 每秒数据几十万条数据关键优化思路
接入层:Kafka分区与并行度匹配,批量压缩传输;计算层:合理并行度+算子链优化+背压控制;状态层:RocksDB优化+状态TTL+增量Checkpoint;逻辑层:简化计算+批量处理+近似算法;资源层:足够CPU/内存+SSD+万兆网;监控层:实时跟踪吞吐量、延迟、背压,持续调优。
2025-11-09 16:25:28
662
原创 flink优化 - 高并发场景下处理库存变动的经典方案
将事件转为库存正负值,利用数据库Upsert能力处理明细和聚合数据,是简单、高效、可靠的方案。其核心是通过“增量变动+主键Upsert”实现实时更新,既支持日常高频操作,又能轻松处理历史数据修正,尤其适合零售、票务、物流等库存密集型场景。
2025-11-09 12:55:45
1114
原创 dify + agent +知识库构建自然语言转sql查询Postgresql数据库
dify+agent+知识库构建自然语言转sql查询Postgresql数据库
2025-02-28 15:20:38
4480
原创 clickhouse sql 语法参考
clickhouse sql 语法参考1. select1.1 将结果中的某些列与 re2 正则表达式匹配,可以使用 COLUMNS 表1.2 ARRAY JOIN - 数组数据平铺1.3 LEFT ARRAY JOIN常用sql 汇总1. 查询数据库表大小1. select1.1 将结果中的某些列与 re2 正则表达式匹配,可以使用 COLUMNS 表COLUMNS(‘regexp’) 例如表: CREATE TABLE default.col_names (aa Int8, ab Int8
2024-08-01 17:55:09
851
原创 flink 最后一个窗口一直没有新数据,窗口不关闭问题
窗口类型:滚动窗口@Override@Override@Override//乱序时间} else {// 10s内没有数据则关闭当前窗口state.f1){System.out.println("触发窗口,maxWatermark + 6000L:" + (maxWatermark + 6000L));} else {System.out.println("正常发送水印");代码部分逻辑说明。
2024-01-17 23:19:34
1367
1
原创 flink Mysql CDC(动态加表)、postgresqlCDC 和 CDC无锁算法
flink Mysql CDC(动态加表)、postgresqlCDC 和 CDC无锁算法
2023-07-21 17:34:50
2788
1
原创 postgresSql - select group by 和 子查询select 明细外层group by 的性能对比
select group by 和 子查询select 明细外层group by 的性能对比
2022-10-18 11:20:07
573
原创 postgresSql/pgsql 函数使用[json[数组]解析、每日累计,字符串拼接、去重、排序 等]
postgresSql/pgsql 函数使用[json[数组]解析、每日累计,字符串拼接、去重、排序 等]
2022-09-14 11:16:26
5930
原创 记 - Flink SQL Upsert Kafka Sink 数据乱序排查与解决思路【业务数据任意修改】
Flink SQL Upsert Kafka Sink 数据乱序
2022-07-18 16:43:20
3437
2
原创 flink sql 数据乱序或数据被覆盖
flink sql 数据乱序原因分析1、多表left join 乱序1.1、flink sql 如下:2、多表与主表关联数据乱序1、多表left join 乱序1.1、flink sql 如下:sink to pg 表的主键:idselect c1.id,c1.name1,c2.name2,c3.name3,c1.num from flink_multilist_left_join_check1 c1left join flink_multilist_left_join_check2 c2 on
2022-04-27 13:46:08
3332
原创 hive - return code (数字) from org.apache.hadoop.hive.ql.exec错误系列集合
hvie - return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. Unable to move source hdfs://XXX to destination hdfs://xxx原因:执行hive任务的用户对hdfs://xxx没有操作权限解决:对目录授权命令:hdfs dfs -chown -R use:group hdfs://xxx...
2022-04-20 18:41:39
7117
4
原创 flink sql 特殊字符做分隔符做参数传参给自定义函数注意项
flink sql 传参给自定义函数注意项path = ‘123.323’;flink sql : pathLength(path,’.’) as depth注意项:在flink sql 中要使用 单引号单杠备注:其他语言:可能是双引号双杠转义UDF函数: public int eval(String path, String sep) { if(path == null || path.trim().length() == 0){ return 0
2022-03-01 16:06:01
2816
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅