Gadus_-CSDN博客

原创 Rerank ：提升RAG生成结果质量的实践

在信息检索系统中，召回（Recall）和排序（Ranking）是影响结果质量的关键环节。然而，传统的搜索引擎（如 Elasticsearch，ES）在向量召回阶段存在。，在效果（Top3 命中率 +15.2%）和性能之间取得平衡。，对召回结果进行精细化调整，提高最终结果的准确性和可靠性。ES 的 HNSW 算法虽然能高效检索，但由于其基于。，导致排序结果不稳定。为了解决这一问题，我们引入了。，在初步召回的基础上，进一步优化排序逻辑。的问题，导致最终排序效果不稳定。，能高效支持大规模向量检索，但。

2025-04-28 15:56:45 868

原创利用 functools.lru_cache 优化递归算法

是 Python 标准库functools中的一个装饰器，它实现了最近最少使用（Least Recently Used, LRU）缓存策略。LRU 缓存策略会保留最近使用过的函数调用结果，当再次调用相同的函数且传入相同的参数时，直接从缓存中返回结果，而不需要重新执行函数体，从而避免了重复计算。是一个非常实用的装饰器，它可以帮助我们优化递归算法，避免重复计算，提高程序的性能。通过简单地在递归函数前添加该装饰器，我们可以轻松地实现缓存功能，让递归算法更加高效。

2025-04-26 15:45:56 953

原创联合索引`ABC`，使用`B=... AND C=... AND A=...`会走索引吗？

通过合理设计索引顺序和优化查询条件，可以最大化利用联合索引的性能优势。，即查询条件必须从索引的最左侧列开始连续匹配，才能有效利用索引。联合索引的底层存储和查询优化遵循。若优化器未正确选择索引，可使用。在MySQL中，联合索引。，可考虑创建新索引（如。

2025-04-25 13:47:07 682

原创 ElasticSearch：高并发场景下如何保证读写一致性？

【代码】ElasticSearch：高并发场景下如何保证读写一致性？

2025-04-23 17:44:13 765

原创 Elasticsearch性能优化实践

Elasticsearch性能优化本质是资源调度艺术空间与时间（压缩算法 vs 查询延迟）集中与分布（分片合并 vs 并行度）动态与静态（实时计算 vs 预计算）

2025-04-22 22:08:15 1210

原创 Prompt工程：大模型的「精准导航系统」

明确目标：通过角色、约束和步骤定义清晰任务边界。动态适配：结合上下文、工具和领域知识调整提示词。评估闭环：通过细粒度分析和反馈持续优化生成质量。场景融合：在垂直领域中深度融合业务规则与多模态信息。实际应用中需根据场景复杂度选择单一或多策略组合（如ReAct + CoT + 动态Few-Shot）。

2025-04-22 19:04:26 1350

原创 MySQL：Join连接的原理

执行连接查询前申请的一块固定大小的内存，先把若干条驱动表结果集中的记录装在Join Buffer中，然后开始扫描被驱动表，每一条被驱动表的记录一次性地与Join Buffer中的多条驱动表记录进行匹配，匹配过程都在内存中完成，显著减少被驱动表的I/O代价。并不是所有满足条件的驱动表记录先查询出来放到一个地方再去被驱动表查询的【如果符合条件的记录很多，需要很大的存储空间】，每获取到一条驱动表记录，就立刻到被驱动表中寻找匹配的记录。两表连接查询需要查询一次t1表，两次t2表，在两表的连接查询中，

2025-04-18 20:43:43 612

原创 MySQL：B+树索引

目录项记录的内容是索引列加页号的搭配，但对于二级索引来说不够严谨，为了让新插入的记录找到在哪个页，需要保证B+树同一层内节点的目录项记录除页号字段以外是唯一的【二级索引内节点的目录项记录的内容由：索引列的值、主键值、页号构成】如图6-17，先把新记录的列值与页3各目录项记录的列值比较，如果列值相同，可以接着比较主键，B+树同一层中不同目录项记录的列值+主键的值肯定不同，最后肯定能定位到唯一一条目录项记录。如果存储目录项的页也很多，则为这些存储目录项记录的页再生成一个更高级的目录。

2025-04-15 23:02:24 917

原创 MyISAM索引方案

MyISAM行格式有定长记录格式、变长记录格式、压缩记录格式等，图6-18index_demo表采用定长记录格式，即一条记录占用的存储空间是固定的，这样就可以使用行号算出某条记录在数据文件的地址偏移量。把索引信息单独存储到另一个文件【索引文件】，会为表的主键单独创建一个索引，但在索引的叶子节点存储的不是完整的用户记录【主键值+行号】，通过索引找到行号，再通过行号找记录【一次回表操作】【相当于MyISAM建立的索引全是二级索引】将表中的记录按记录的插入顺序单独存储在一个文件中【数据文件】，这个文件。

2025-04-15 22:55:19 337

原创调节磁盘和CPU的矛盾——InnoDB的Buffer Pool

在对某个处于old区域的缓冲页进行第一次访问时，就在它对应的控制块中记录下这个访问时间，如果后续的访问时间与第一次访问的时间在innodb_old_blocks_times时间间隔内，那么该页面就不会从old区域移到young区域的头部【可能是一次全表扫描的多次访问】连续的内存被划分为若干个页面【缓冲页】，页面大小与InnoDB表空间使用的页面大小一致【默认16KB】控制信息【所属的表空间编号、页号、缓冲页在Buffer Pool中的地址、链表节点信息等】-方便管理。BufferPool内部组成。

2025-04-14 22:48:40 893

原创 MySQL事务

只有当事务处于提交的或者中止的状态时，一个事务的生命周期才算结束。acid-原子性、一致性、隔离性、持久性。

2025-04-12 16:40:18 460

原创事务隔离级别和MVCC

因此我们可以在某个事务访问某个数据时，要求其他试图访问相同数据的事务进行限制，当该事务提交后，其他事务才能继续访问这个数据，使其并发执行的结果和串行执行的结果一样【可串行化执行】但是猫爷的账户有12元，多了10元，账户总余额变为18元，显然违背了参与转账的账户的总余额保持不变的一致性需求。在这个执行顺序下，T2只读事务读取到的x=1，y=0，虽然最终数据库状态还是一致的，但是T2 事务得到了一个不一致状态，数据库的不一致状态是不应该暴露给用户的。max_trx_id：系统应该分配给下一个事务的事务id。

2025-04-12 16:37:55 1053

原创 MySQL：InnoDB

之后每插入一条记录，都会从页目录中找到对应记录的主键值比待插入记录的主键值大且差值最小的槽【本质上，槽是一个组内最大的那条记录在页面中的地址偏移量，通过槽可以快速找到对应的记录主键值】，然后把该槽对应的记录的n_owned值+1，直到该组记录数=8。当一个组记录数=8后，再插入一条记录，会将组中的记录拆分成两个组，其中一个组4条记录，另一个5条记录，并在页目录中新增一个槽，记录这个新增分组中最大的那条记录的偏移量。每新申请一条记录的存储空间时，该条记录比物理位置在它前面那条记录的heap_no值大1。

2025-04-12 16:32:33 1120

原创 python接口下载导出文档的三种方法【Nginx静态资源、临时文件、直接输出数据流文件不落盘】

【代码】接口导出文档的三种方法【Nginx静态资源、临时文件、直接输出数据流文件不落盘】

2023-01-06 16:46:59 717

原创 ElasticSearch- Mapping

除了整数、浮点数、true/false、日期、数组、对象、字符串之外，其他类型都必须显示映射【手工指定】，其他类型es无法自动识别，fields的mapping只能创建，无法修改。两种方式：dynamic mapping【动态映射/自动映射】；explicit mapping【静态映射/手工映射/显示映射】概念：定义文档及其包含的字段的存储和索引方式的过程。

2022-08-23 14:01:55 443

原创 Kafka概述

学习视频form B站尚硅谷。

2022-08-15 20:26:51 498

原创 DockerFile笔记

dockerfile面向开发，docker镜像成为交付标准，docker容器则涉及部署运维。

2022-08-14 23:33:55 303

原创 ElasticSearch-节点、分片、集群

副本分片主分片备份，不允许直接写入数据，只允许通过主分片做数据同步，写入只会写入主分片。主分片数据原始文件，支持读写；多个节点组成的高可用分布式系统。

2022-07-25 17:14:32 644

原创 ElasticSearch核心概念-压缩算法

100w条数据，1int=4Bytes，则数据索引需约为4MB【太大了】稀疏数组，差值大，deltalist仍然很大，for压缩算法不适用。

2022-07-25 11:27:55 1983 2

原创 Elasticsearch-Rest风格

rest

2022-07-20 19:11:49 539

原创 ElasticSearch核心概念——倒排索引

和Elasticsearch可以获益于更强大的硬件设备，但。真正的扩容能力是来自于—为集群添加更多的节点，并且将中。ElastiSearch是的，它知道如何通过来提高扩容性和可用性。

2022-07-19 17:20:24 389

原创 Docker镜像、容器卷

Docker镜像的最底层是引导文件系统bootfs，以此为基础添加扩展Docker镜像层都是只读的，容器层是可写的，镜像的每一层都可以被共享。当容器启动时，一个新的可写层被加载到镜像的顶部【通常被称作容器层】，所有对容器的改动都只发生在容器层，不会改变底下的镜像docker commit提交容器副本使之成为一个新的镜像：docker commit -m=“提交的描述信息” -a=“作者” 容器ID 要创建的目标镜像名:[标签名]Docker挂载主机目录访问如果出现cannot open directory

2022-07-11 23:17:07 460

原创 docker基础知识及常用命令

Docker给出了一个标准化解决方案，提供容器虚拟化技术，使系统能够平滑移植解决了运行环境和配置问题的软件容器，方便做持续集成并有助于整体发布的容器虚拟化技术Docker：镜像技术【从系统环境开始自底向上打包，映像档即应用】容器虚拟化解决虚拟机的痛点【内存消耗运行时间】，不是模拟一个完整的操作系统，而是对进程进行隔离。将软件运行所需的所有资源打包到一个隔离的容器中，使其变得高效轻量并保证部署在任何环境的软件都能一致运行。Docker和传统虚拟化方式的不同：Docker镜像（Image）是一个只读模版，

2022-06-17 16:44:49 244

原创 python引用拷贝、生成器迭代器

引用VS拷贝赋值操作总是储存对象的引用，而不是对象的拷贝。赋值操作会产生相同对象的多个引用，在原处修改可变对象时，可能会影响程序中其他地方对相同对象的其他引用。拷贝方法：L[:]复制序列字典copy方法（X.copy()）复制字典内置函数（如list）生成拷贝（list(L)）copy标准库模块生成完整拷贝**注意：**无条件值的分片以及字典copy方法只能做顶层复制，不能复制嵌套的数据结构。使用标准的copy模块，copy.deepcopy(Y)对任意嵌套对象Y做完整的复制并行遍历：z

2022-05-24 17:30:00 543

原创 python列表与字典

不可变性：在核心类型中，数字、字符串和元组是不可变的；列表和字典是可变的。在其他方面，这种不可变性可以用来保证在程序中保持一个对象固定不变。字符串replace方法会对全局进行搜索和替换，但是不会改变原始的字符串，而是会创建一个新的字符串作为结果【字符串的不可变性】字典是一种映射（mapping），是一个其他对象的集合，但是通过键而不是通过相对位置来存粗的，它没有任何可靠的从左到右的顺序，只是简单的将键映射到值，是python核心对象集合中的唯一一种映射类型，具有可变性【可以就地改变，并可以随需求增大或

2022-05-20 15:58:56 2715

空空如也

空空如也