节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。
针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。
总结链接如下:《大模型面试宝典》(2024版) 正式发布!
今天,我们来看看2个问题,一个是回顾下主流 RAG 框架TOP10及一个有趣的soda RAG小工具,另一个为防止恶意检索污染攻击的RAG方案RobustRAG思路,供大家参考。
会有一些思路,供大家一起参考。
问题1:主流RAG框架TOP10及一个有趣的soda RAG小工具
最近 RAG 的轮子越来越多,我们先后已经出现了多个RAG框架,例如langchain, llamaindex,langraph,qanything, ragflow等,
例如通过github可以找到如下排序,top10框架:
Rank1、LangChain(86k stars):https://github.com/langchain-ai/langchain/,当之无愧的霸主,范围很全面,但代码
Rank2、Quivr(33.4k stars):https://github.com/StanGirard/quivr
Rank3、LlamaIndex(32.1k stars):https://github.com/run-llama/llama_index/
Rank4、Dify(31.2k stars):https://github.com/langgenius/dify
Rank5、Langchain-Chatchat(28.5k stars):https://github.com/chatchat-space/Langchain-Chatchat
Rank6、QAnything(9.7k stars):https://github.com/netease-youdao/QAnything,特点是加入rerank,后期更新也加入了文档理解;
Rank7、danswer(9.5k stars):https://github.com/danswer-ai/danswer
Rank8、RAGFlow(8.3k stars):https://github.com/infiniflow/ragflow,特点是前期处理文档理解;
Rank9、langchain4j(3.5k stars):https://github.com/langchain4j/langchain4j
Rank10、Verba(4.3k stars):https://github.com/weaviate/Verba
最近有个新的框架,SODA: Search, Organize, Discovery Anything(https://github.com/Liuziyu77/Soda/),有点儿意思,根据其介绍。其支持网络检索、文本检索(本地数据库)、图像检索(本地数据库)。
其中在文本检索阶段,采用两阶段检索过程,第一阶段从数据库中检索信息,第二阶段对检索到的文本进行重新排序,其实标准的重排。
例如文本检索,其通过构建本地文本数据库并从中检索信息,通过修改上传的文件的路径,其中文件包括TXT, DOCX, PDF等文件格式。
又如图像检索结果,构建本地图像数据库并从中检索图像,其中核心在于图像embedding的生成,该项目中使用使用CLIP-B/32作为图像编码器。
又如网络检索结果,其核心在于利用各种搜索引擎的API来根据用户输入检索相关信息,包括google、Serper、Bing等不同的API
问题2:为防止恶意检索污染攻击的RAG方案RobustRAG思路
这个有点意思,《Certifiably Robust RAG against Retrieval Corruption》(https://arxiv.org/abs/2405.15556),其出发点在于,由于依赖外部知识库的检索结果,RAG模型容易受到Retrieval Corruption Attacks,也就是恶意的检索污染攻击,攻击方可以通过在检索结果中注入虚假或误导性的文本,操纵模型的输出,产生错误甚至有害的内容,从而影响RAG模型的可靠性和实用性,并带来难以预料的负面影响。
如下所示,检索到的三个段落中有一个被破坏,Vanilla RAG将所有段落串联起来作为LLM输入;其响应被恶意段落劫持。
不同的是,RobustRAG会隔离每个段落,这样三个隔离回复中只有一个被破坏。然后,RobustRAG会安全地汇总非结构化文本回复,以获得稳健的输出。
因此,其思想很简单,就是"先隔离后聚合"(Isolate-then-Aggregate)策略。具体而言,该框架包含以下两个关键步骤:
一个是隔离回复,对于检索到的每一段文本,先独立地获取LLM的回复,而不是将所有文本拼接在一起作为输入,以限制恶意文本对其他回复的影响。
一个是安全聚合,设计基于关键词和解码的方案,如下两个代码逻辑,以安全的方式聚合这些独立的回复,生成最终的输出,以实现即使存在少量恶意回复,也能从正常回复中提取关键信息,得出可靠的结果。
其中,关键词聚合方案思路如下:
1、提取关键词,对每个独立的LLM回复进行关键词提取。使用启发式规则,例如保留名词、形容词、数字等信息量大的词,形成关键词集合;
2、聚合关键词,统计不同回复中关键词的出现频率。出现频率高的关键词更有可能携带正确和相关的信息。过滤掉出现频率低于阈值的关键词;
3、生成最终回复:使用筛选后的高频关键词,再次提示LLM生成最终的回复。关键词集合以一定的顺序(如字母序)排列,作为额外的上下文信息输入到LLM中。
解码聚合算法的思路如下:
1、独立解码,对每个检索到的文本,RobustRAG独立地进行解码操作。在每个解码步骤,得到LLM预测下一个词的概率分布向量;
2、聚合概率向量,将不同文本解码得到的概率向量进行聚合,具体使用元素级平均,得到一个新的概率分布;
3、生成回复,根据聚合的概率分布,预测下一个词。重复这一过程,直到生成完整的回复文本。在预测置信度较低时,适当参考无检索结果时LLM的预测,以保证回复的流畅性。
总结
本文主要讲了2个问题,一个是回顾下主流RAG框架TOP10及一个有趣的soda RAG小工具,另一个为防止恶意检索污染攻击的RAG方案RobustRAG思路。
其中关于主流框架方面,当前有很多,但不需要哪个都做,还是需要选一个就行。另外,RobustRAG在真实场景下用不太到,但单纯从思想上来看,是很有趣的。
技术交流群
前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~
我们建了算法岗技术与面试交流群, 想要大模型技术交流、了解最新面试动态的、需要源码&资料、提升技术的同学,可以直接加微信号:mlc2040。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。
方式①、微信搜索公众号:机器学习社区,后台回复:交流
方式②、添加微信号:mlc2040,备注:交流
面试精选
参考文献
1、https://arxiv.org/abs/2405.15556
2、https://github.com/Liuziyu77/Soda/