小模型在LLM时代的作用 然而,由于 SMs 的简单性、较低的成本和可访问性,在受限环境或需要高度可解释性的任务中,SMs 通常优于LLM。LLM需要大量的计算资源进行训练和推理,导致高成本和延迟,这使得它们不太适合实时应用,如信息检索,或在资源有限的环境中,如边缘设备。相比之下,较小的模型往往更专业化,研究表明,在特定领域的数据集上对它们进行微调,有时可以在特定任务上比一般LLM获得更好的性能。相比之下,较小的模型需要更少的训练数据和计算能力,在提供有竞争力的性能的同时大大降低了资源需求。
小模型(SLM)的效率、性能和潜力 例如,最新的谷歌和三星智能手机内置了大型语言模型(LLM)服务,如 Gemini Nano,它允许第三方应用程序通过提示和模块化集成来访问 LLM 功能。同样,iphone 和 ipad 上最新的 iOS 系统包括一个与操作系统紧密集成的设备上基础模型,既增强了性能,又增强了隐私。通过在个人设备上启用人工智能功能,slm 旨在使强大技术的使用民主化,使人们能够随时随地使用智能系统,而无需依赖基于云的资源。一般来说,数据的质量比数据的数量或特定的模型架构更重要。在最近的研究中得到了越来越多的关注。
如果没有真实数据,如何评估 RAG 下面,我们将介绍三种有效的策略,从零开始创建 ground truth 数据集的方法,当你确实拥有数据集时可以用来评估的指标,以及可以帮助你完成这一过程的现有框架。通过将数据分解成这样的特定主题,你不仅可以为训练创造更多的数据点,还可以使你的数据集更加精确和集中。它包括评估检索和生成的指标,提供了一种全面的方法来衡量您的系统在每个步骤中的表现。较高的阈值(如 0.8 或更高)意味着有更严格的要求,而较低的阈值将带来更多的数据,这可能是有帮助的,也可能只是嘈杂的。你可以利用这些反馈来构建你自己的迷你数据集。
AgentLite 一个轻量级LLM Agent框架 虽然 Autogen 已经成功地构建了 LLM 代理,但它的代理接口有固定的推理类型,这使得它很难适应其他研究任务。该研究还指出,LangChain 是一个流行的库,用于开发使用大型语言模型(llm)的应用程序,提供内置工具来创建各种代理类型。在其代理创建过程中可能是复杂或僵化的,它简化了任务,为研究人员开发新的代理推理类型和架构提供了灵活性和定制性。所有动作及其产生的观察结果都立即保存在memory中,允许代理在正在进行的任务期间引用其先前的决策。,这是一个旨在构建 AI 代理的开源框架。
校对:一键修复所有错误 接下来,在一个合成数据集上对模型进行微调。校对是 Gboard 的一项新功能,它使用服务器端大型语言模型(LLM),只需点击一下就可以提供无缝的句子级和段落级更正,减轻了那些喜欢专注于打字而不是检查已提交单词的快速打字者的痛点。使用大型语言模型(LLM)过滤噪声数据,并使用精心设计的指令,以避免污染模型。为了优化模型,使用了近端策略优化(PPO),其中涉及到 KL 散度,以帮助模型保留恢复原始文本的能力。给定三个元素,输入(损坏的文本),答案(从模型中预测的候选人)和目标(基本事实),我们提出以下指标。
21 种 AI 小模型 小型语言模型通过为广泛的应用程序提供高效、可扩展和高性能的解决方案,正在改变 AI 的格局。它们紧凑的尺寸和减少的资源需求使其成为在计算能力和内存有限的环境中部署的理想选择。许多 slm 是通过知识蒸馏创建的,在这个过程中,较小的模型学习模仿较大模型的行为,保留了原始模型的大部分性能。许多小的语言模型都是 BERT(来自transformer的双向编码器表示)的变体,针对效率和速度进行了优化。随着新技术和体系结构的开发,slm 的性能不断提高,缩小了它们与更大模型之间的差距。
小语言模型:为业务需求定制AI 通过提供量身定制的、具有成本效益的解决方案,slm使公司能够利用 AI 的力量,而无需大型模型的复杂性和资源需求。无论您是希望改善患者护理的医疗保健提供商、旨在增强客户体验的零售商,还是寻求市场洞察力的企业,slm 都能提供在日益数字化的世界中保持竞争力所需的精度和效率。那些希望利用人工智能的企业来说是一个明智的举措,同时又不需要高昂的价格和大型模型的复杂性。想象一个技艺高超的工匠,他对自己的手艺了如指掌,但并不试图掌握每一项可能的技能——slm 是为了在自己的领域中脱颖而出而设计的。
教小模型进行推理 然而,较小的 lm 的推理能力在 CoT 提示下并没有提高,大多产生非逻辑的CoT。值得注意的是,CoT 提示甚至降低了小于 100 亿个参数的模型的准。这项研究又是一个很好的例子,证明了快速工程技术是有效的,正在进入语言模型训练。研究表明,这种提示显著提高了跨常识、符号和数学推理数据集的大型语言模型(llm)的任务准确性。谷歌断言,推理能力只出现在具有至少数百亿参数的模型中。这也是 LLM 用于生成或增强小型语言模型的训练数据的另一个例子。众所周知,思维链提示提高了大型语言模型的推理能力。
引入语义标签过滤:利用标签相似度增强检索 然后我们可以对得到的矩阵进行转置,并对其进行压缩:我们将对可用的标签索引使用 1 和 0 来初始编码我们的查询/样本,从而得到与我们的初始矩阵(53,300)长度相同的初始向量。目前,我们缺乏适当的数学验证(乍一看,从 M 中平均相似度得分已经显示出非常有希望的结果,但需要进一步的研究来获得有证据支持的客观指标)。我们可以看到,传统搜索可能(没有额外的规则,样本是根据所有标签的可用性进行过滤的,而不是排序的)返回一个标签数量较多的样本,但其中许多标签可能不相关。的稀疏矩阵(相当不实用的壮举)。
RAG 幻觉检测方法 通过整合这些方法,RAG 系统可以实现更高的可靠性,并确保更准确和可信的响应。在一个广为流传的案例中,一家大型航空公司(加拿大航空公司)输掉了一场官司,因为他们的 RAG 聊天机器人对他们的退款政策的重要细节产生了幻觉。中的每个实例都包含一个检索到的大型明文财务信息上下文,以及一个关于该信息的问题,例如:卡夫亨氏(Kraft Heinz) 2015 财年的净营运资金是多少?精度的错误答案(RAGAS 忠实度的平均精度为 0.762,幻觉度量的平均精度为 0.761,自我评估的平均精度为 0.702)。
EfficientRAG:多跳问题回答的高效检索器 中,作者介绍了一种高效的多跳问答检索器效率 EfficientRAG。EfficientRAG 迭代地生成新的查询,而不需要在每次迭代中调用 LLM,并过滤掉不相关的信息。LMs,包括以前 10 个检索块为知识的朴素 RAG 为基线,包括高级迭代 RAG 方法,如 Iter-RetGen[2]和 SelfAsk [3]调用、迭代、延迟和 GPU 利用率四个指标。3.69,这些结果令人印象深刻。回答查询的有用信息。
pediatrics_llm_qa:儿科问诊小模型 预训练模型是基于大量语料库和算法模型进行训练的,并且在训练过程中可能存在偏差、错误和不完整的信息。因此,本项目提供的预训练模型仅供参考和研究使用,并不能保证其准确性和可靠性。使用预训练模型产生的结果可能存在误差和偏差,不能用于实际应用或决策。本项目不对使用预训练模型所产生的结果承担任何责任,也不对因使用预训练模型所产生的任何损失承担责任。使用者在使用预训练模型时应自行承担风险并进行自我验证。3.下载模型参数并运行(要求单卡GPU >= 15G或者CPU)
利用投影技术增强RAG文档检索的多样性 然而,这种方法的一个缺点是它可以返回高度相似的文档,从而导致冗余和较少的响应多样 性。• retrieve_with_diversity 函数首先检索最相似的文档,然后通过减去当前最佳文档的投影来调整查询向量。当您需要在检索上下文中保持多样性时,这种基于投影的技术可以成为 RAG 系统的一个有价值的补充。即使所有检索到的文档仍然是相关的,多样性方法也可以确保它们捕获查询主题的不同方面。该技术涉及投影出先前检索文档的组件,鼓励检索过程选择内容更多样 化的文档。• 有一组文档向量和一个查询向量。
llm_security(大模型内容安全) 利用分类法和敏感词检测法对生成式大模型的输入和输出内容进行安全检测,尽早识别风险内容。使用【ServiceApplication.java】使用者可自行训练bert类相关模型,用本项目加载即可。本项目采用java, springboot实现。
语义分块:改进 AI 信息检索 语义分块是一种基于内容和上下文将文本或数据划分为有意义的片段的方法,而 不是任意的字数或字符限制。这些限制可能会影响人工智能生成反应的准确性和相关性,特别是在处理复杂或 微妙的信息时。-与先进的 AI 模型集成:增强语义分块和前沿语言模型之间的协同作用。这些改进可以产生更可靠的 AI 系统,能够更精确地处理细微的查询。3.上下文嵌入:每个块在更广泛的文档中保留有关其上下文的信息。3.增强对复杂信息的处理能力:特别适用于长篇内容和复杂的主题。-领域适应:有效的分块策略可能因不同的领域和内容类型而异。
时间序列分析的代理检索-增强生成 预训练的小型语言模型,如 Google 的 Gemma 和 Meta 的 lama-3,受到 8K token 上下文窗口的限制,这阻碍了它们处理长输入序列的能力。此外,直接 DPO 用于通过随机屏蔽 50%的 数据并执行二元分类来预测正确的特定于任务的结果,从而将 SLM 预测导向更 可靠的特定于任务的结果。这些提示与输入数据相结合,以改进预测,使模型能够适应和利用过去的 知识,在不同的数据集上获得更好的性能。模块化的多代理 RAG 方法提供了灵活性,并在各种时间序列 任务中实现了最先进的性能。
支持大模型的小模型 因此,微软研究院提出了一个框架,利用小语言模型(SLM)作为初始检测器, LLM 作为约束推理器,为任何检测到的幻觉生成详细的解释。• 使用小型语言模型是有利的,因为它允许使用开源模型,从而降低了成 本,提供了托管灵活性,并提供了其他好处。检测到幻觉:如果 SLM 检测到幻觉,基于 llm 的约束推理器会介入来解释 SLM 的决定。• 本研究中呈现的架构提供了对未来的一瞥,展示了一种更加协调的方法, 其中多个模型协同工作。• 它还增加了发现、观察和解释的元素,提供了对幻觉检测有效性的见解。
GNN-RAG:以RAG形式将 llm 的语言能力与 gnns 推理进行联合 • GNN-RAG 显著提高了弱 LLMs(如 Alpaca-7B 和 Flan-T5-xl)的 KGQA 性。• 作者训练了两个不同的 GNNs,一个深 gnn (L = 3)和一个浅 gnn (L = 1),的多跳信息(%Ans)。• 作者提出了一种 RA 技术(GNN-RAG +RA),它将 GNN 寻回器与基于 llm。• 以上结果表明,基于 gnn 的检索比基于 LLM 的检索更高效(#LLM Calls,• 下表给出了使用GNN-RAG或LLM-based检索器(RoG和ToG)的各种llm。
GraphRAG在结构化知识和人工智能之间架起了桥梁 GraphRAG,即基于图的检索增强生成,是一个复杂的 AI 框架,它将图结构的 优势与语言模型结合在一起。硬件方面的进步,比如更强大的 gpu 和 tpu,有望 支持更复杂图形结构的开发。此外,集成更高级的语言模型,如基于变压器的语 言模型,可以进一步提高信息检索和生成的精度和相关性。3. 可伸缩性和灵活性:GraphRAG 的基于图的方法在表示数据中的复杂关系 和层次结构方面提供了更大的灵活性,使其更适合各种应用程序。GraphRAG 的基于图的方法更适合于复杂的关系数据,比 如知识库或社会网络。