RAG系统进阶

最新推荐文章于 2024-07-17 21:40:42 发布

dc爱傲雪和技术

最新推荐文章于 2024-07-17 21:40:42 发布

阅读量1k

点赞数 18

分类专栏： AI+LLM 文章标签：人工智能

本文链接：https://blog.csdn.net/qq_36372352/article/details/138563642

版权

AI+LLM 专栏收录该内容

34 篇文章 2 订阅

订阅专栏

文本分割的粒度

缺陷

粒度太大可能导致检索不精准，粒度太小可能导致信息不全面
问题的答案可能跨越两个片段

改进: 按一定粒度，部分重叠式的切割文本，使上下文更完整

from nltk.tokenize import sent_tokenize
import json


def split_text(paragraphs, chunk_size=300, overlap_size=100):
    '''按指定 chunk_size 和 overlap_size 交叠割文本'''
    sentences = [s.strip() for p in paragraphs for s in sent_tokenize(p)]
    chunks = []
    i = 0
    while i < len(sentences):
        chunk = sentences[i]
        overlap = ''
        prev_len = 0
        prev = i - 1
        # 向前计算重叠部分
        while prev >= 0 and len(sentences[prev])+len(overlap) <= overlap_size:
            overlap = sentences[prev] + ' ' + overlap
            prev -= 1
        chunk = overlap+chunk
        next = i + 1
        # 向后计算当前chunk
        while next < len(sentences) and len(sentences[next])+len(chunk) <= chunk_size:
            chunk = chunk + ' ' + sentences[next]
            next += 1
        chunks.append(chunk)
        i = next
    return chunks

检索后排序（选）

问题: 有时，最合适的答案不一定排在检索的最前面

混合检索（Hybrid Search）（选）

在实际生产中，传统的关键字检索（稀疏表示）与向量检索（稠密表示）各有优劣。

举个具体例子，比如文档中包含很长的专有名词，关键字检索往往更精准而向量检索容易引入概念混淆。

# 背景说明：在医学中“小细胞肺癌”和“非小细胞肺癌”是两种不同的癌症

query = "非小细胞肺癌的患者"

documents = [
    "玛丽患有肺癌，癌细胞已转移",
    "刘某肺癌I期",
    "张某经诊断为非小细胞肺癌III期",
    "小细胞肺癌是肺癌的一种"
]

query_vec = get_embeddings([query])[0]
doc_vecs = get_embeddings(documents)

print("Cosine distance:")
for vec in doc_vecs:
    print(cos_sim(query_vec, vec))

Cosine distance:
0.891300758103824
0.8897648918974225
0.9040803406710733
0.9132102982983258

所以，有时候我们需要结合不同的检索算法，来达到比单一检索算法更优的效果。这就是混合检索。

混合检索的核心是，综合文档 $d$ 在不同检索算法下的排序名次（rank），为其生成最终排序。

一个最常用的算法叫 Reciprocal Rank Fusion（RRF）

$KaTeX parse error: Can't use function '$' in math mode at position 2: $̲rrf(d)=\sum_{a\…$
其中 $A$ 表示所有使用的检索算法的集合， $rank_a(d)$ 表示使用算法 $a$ 检索时，文档 $d$ 的排序， $k$ 是个常数。