rag系统中，如果召回的文本里有一个超链接，要怎么办？

本文链接：https://blog.csdn.net/qq_39006282/article/details/140730083

这事很容易发生在拥有联网搜索功能的rag上，或者文档之间非独立的情况。例如现在要处理的是一份年终报表，数据要从其他地方摘，主文档会给出大量超链接指向其他目标文档，又不直接指出在哪一页哪一行。

对于报表这个例子，我的想法是:每当rag遇到一个超链接时，应该带着“我想要获得某个信息”的问题去解析对应的超链接文档，因此通过LLM和超链接的附近的上下文来提取问题是很重要的操作。然后可以分解迭代地解析或者你够nb直接把整个文档塞进去解析都行，让llm“大海捞针”摘出问题对应需要的信息。这就完成了对超链接的处理。

对于联网搜索类rag，例如kimi，它的顶部会有这些过程信息:理解问题、搜索网页、已阅读xx个网页。网页后面有的还带时间。
显然，kimi先拆解了我提出的问题并生成搜索关键字，这些关键字去搜索后返回大量链接，kimi要实时分析这些链接。我不觉得kimi需要处理链接中的链接，那样就无底洞了，第一层信息已经足够回答大多数问题了。
kimi阅读网页的顺序很有趣，有时间的排名更靠前，说明rerank中时间很重要，而且检索来源应该设置了过滤器，对于某类问题，需要在某些特定网站平台搜索结果，例如我搜索batchnorm和layernorm实际应用中的性能差距，kimi搜索了batchnorm性能和 layernorm性能这两个词，12个网页来自:pytorch官方文档、csdn、百度智能云、百度开发者中心、极市开发者平台。唯一的pytorch官方文档位居第一，即使它只有layernorm的信息，这肯定是因为对网站有针对某搜索关键字的相关度or可信度的记录。
说回正题。kimi解析每个网页的时间不同，肯定是在针对我的query做实时内容抽取，12个网页抽取完再编上号码汇总，且在回答每一点时(kimi和其他模型都喜欢把答案拆成几个点回答)，模型被训练在特定位置输出特殊的引用token，以指向该句话or该论点的编号来源。以上是我的观察，结论是kimi对于超链接的处理仍然是带着问题去抽取和解析可能存在答案的文本(类似于摘要)，而不是启用rag功能先chunk后embedding再recall再解析recall文档。且一个细节是kimi不直接输出表格，这个功能还不稳定，用户体验差，因此它在总结时会用自然语言描述表格的信息。