MarsLord-CSDN博客

原创 ElasticSearch快速入门实战(3)-集群、分片、同步MySQL数据

还有个提交点的概念,记录当前所有可用的segment,每个commit_point都会维护一个.del文件.当es在做删改操作的时候会先到.del文件中声明某个document已经被删除.这些文档在查询的时候是能搜多到的,但是在返回阶段会被过滤掉.每秒都会生成一个segment_file,没有数据也会生成,当文件过多的时候会自动合并.同时将已标记为删除的文档删除.选择一个时间点作为同步点,在此之前的数据为存量数据,使用Logstash的JDBC插件同步,要确定数据写入的吞吐量有没有要求. 查询的吞吐量;

2026-03-09 10:58:57 321

原创 ElasticSearch快速入门实战(2)-相关性、多字段搜索优化（copy to）、聚合操作、自定义分词

【48、ElasticSearch搜索技术深入与聚合查询实战】4.12 什么是相关性相关性的概述:描述一个文档与查询语句匹配程度的衡量标准.ES有一个评分算法,根据查询条件与索引文档的匹配程度来计算相关性.评分算法:Okapi BM25(RAGFlow关键词搜索也有这个算法)4.14.1 Index Boost在索引层面修改相关性5种策略Index Boost:索引层面,比如一批数据有3个标签,现在想在查询的时候让A,B,C的顺序展示标签. 每个标签独占一个索引查询也是针对索引别名.这样可以做到优先查

2026-03-09 10:47:03 351

原创 ElasticSearch快速入门实战(1)-索引、别名、建模最佳实践

②避免正则,通配符,前缀查询.避免模糊查询.如果要模糊查询,可以把大字段拆分为多个小字段,动静分离把模糊条件具体化.:是把所有的分好的词列出来,然后把包含这个词的文章ID都放在一个对应的集合里.构建一个词和ID集合对应的关系.icu提供了高级的文本分析和处理功能(正则替换).适合多语言场景,支持Unicode标准化.ik_max_word:最细粒度拆分,穷尽所有可能的词语组合,用于。③避免NULL引起的聚合不准确问题.新增的时候给字段加上默认值。那新建索引名的时候就要习惯性的加上版本号了.然后使用别名.

2026-03-08 23:09:06 63

原创 Agent智能体实战开发系列(1)

(以前是通过反射调用本地定义的Tool)这就引出了MCP协议.它解决的是大模型怎么用统一的方式去远程调用第三方Tool.现在大模型已经不限于简单调用Tool,而是涉足复杂任务拆解.这里就需要很多提示词来告诉大模型如何拆分任务,如何处理每个子步骤.这里面是一次性把所有提示词都发给大模型,有触顶风险.Skill的出现就是为了解决触顶风险.Skill由一个md文档定义,里面包含元数据(名称,描述)+指令(编排提示词).比如专门操作浏览器的Skill,专门处理本地文件夹的Skill.①只提供了5种Agent模式;

2026-03-06 23:47:25 283

空空如也

空空如也