拿下SOTA！最强中文Embedding模型对标OpenAI，技术路线公开

最新推荐文章于 2024-07-03 08:44:56 发布

AI_小站

最新推荐文章于 2024-07-03 08:44:56 发布

阅读量609

点赞数 22

文章标签： embedding 深度学习人工智能 ai AGI 大模型计算机技术

本文链接：https://blog.csdn.net/python1234567_/article/details/139677806

版权

国产大模型「日日新 5.0」已经在权威主流评测中鲨疯了。变强的背后原因竟是，来自商汤自研中文Embedding模型——Piccolo2。这是首个对标OpenAI向量长度的模型。

国产大模型最近在权威主流评测中「杀」疯了！

商汤「日日新 5.0」在中文大模型测评基准SuperCLUE中，成为首个超越GPT-4 Turbo的国产大模型；在OpenCompass的基准表现中，客观评测超过GPT-4 Turbo，主观评测已超过GPT-4o位列第一。

在这里插入图片描述

这次「又双叒叕变强」背后是算法、算力、数据的全面「buff」叠加，其中最重要的技术之一、也是解决LLM幻觉问题的关键——商汤自研的通用Embedding模型Piccolo2。

Piccolo2日前已突破SOTA，在由北京智源研究院发布的中文语义向量评测基准C-MTEB评测中名列第一，这是当前最大规模、最为全面的中文语义向量表征能力评测基准，包含分类、聚类、句对分类、重排、检索和句子相似度六大类评测任务和31个数据集。

如今，商汤公开了技术路线。

Piccolo2目前支持512/2K/8K三种向量长度，其中8K模型是目前中文Embedding中能够实现对标OpenAI向量长度的模型。

论文地址：https://arxiv.org/abs/2405.06932

Hugging Face地址：https://huggingface.co/sensenova/piccolo-large-zh-v2

要读的论文又增加了！

模型幻觉「退退退」，长文本「准准准」！商汤全新嵌入模型性能大幅提升

正式读论文之前先聊聊Embedding对于大语言模型的重要性：

检索的准确度、可解释性、易操作的知识外挂……这些都是源于与LLM基于知识库的问答场景息息相关的Embedding模型性能。

嵌入（Embedding）就是将内容（如文字或代码）中的概念转化为一串数字序列。通过这种方式，机器学习模型和其他算法可以轻松理解不同内容之间的关系，执行聚类、检索等操作。

无论是应对幻觉和可解释性，还是应对长文，Piccolo2加持的商汤日日新5.0都完美地完成了从长文中处理和获取信息的任务。

在整个检索增强生成（RAG）pipeline中，Embedding的性能决定了检索的准确性，也间接决定了LLM输出的可信度，而RAG在私有化部署方面的优势也为其开辟了更多可能性。

RAG的一大优点就在于知识库可以通过文档的形式进行外挂，这使得知识能够更频繁地更新，而无需耗时耗力再通过二次预训练向LLM灌入这些知识，并且RAG的检索步骤能够提供上下文给模型作为参考依据，让大模型回答更加准确。

这些也催生了另一个优势——私有化，RAG可以帮助小企业轻松完成大模型的私有化部署，而无需暴露私有数据。

在这里插入图片描述

核心技术详解：对标OpenAI向量长度，精度位列MTEB中文榜单榜首

在这个LLM落地应用中必不可少的一环里，商汤已经将这项技术实现了SOTA，相比之前同量级的SOTA模型acge-embedding，Piccolo2模型综合评分提升了约1.9个点。

到了读论文环节，这背后用了什么方法？依然是算法、数据的双重发力。

与上一代（Piccolo）相比， Piccolo2 主要利用高效的多任务混合损失训练方法，有效地利用来自不同下游任务的文本数据和标签。

同时，Piccolo2 扩大了嵌入维度，并使用 MRL 训练来支持更灵活的向量维度。除了训练方法之外，Piccolo2 还利用了一个数据合成框架和难负挖掘方法，以不断扩充数据集的数量和质量。

多任务混合损失训练：适用不同下游任务

以往的Embedding模型训练过程主要依赖于的标准InfoNCE损失和批内负样本（in-batch negative），通常通过利用大量负样本来实现较好的性能。然而，标准 InfoNCE 并不适用当前Embedding模型所有的下游任务。

例如，句子相似度（STS）和句对分类任务（pair classification）这种具有细粒度标注的任务通常更适合用排序损失。

此外，分类任务和聚类任务在之前的工作中也没有被用于通用嵌入模型的训练。因此在Piccolo2中，商汤采用了多任务混合损失训练方法，针对不同的下游任务利用不同的训练损失，并证明了其优越的性能。

对于检索任务，Piccolo2采用标准的InfoNCE损失：

对于句对分类、句对相似度任务，Piccolo2采用排序损失：

对于分类、聚类任务，Piccolo2首先通过将文本的label视为正/负样本，把分类、聚类数据转换为三元组，然后采用不带批内负样本的InfoNCE损失进行训练：

大维度和MRL训练

在今年1月OpenAI发布的两个新的文本嵌入模型text-embedding-3-small和 text-embedding-3-large ，当时引发了广发关注。

受到 OpenAI 的 text-embedding-v3的启发，商汤在研发Piccolo2时，也扩大了Embedding的维度尺寸，从1024 增加到1792。

除此之外，还引入了「套娃学习」（Matryoshka Representation Learning, MRL）来支持更灵活的Embedding推理维度，「套娃学习」通过以嵌套方式对 O （log （d））低维向量进行显式优化在同一个高维向量中学习不同容量的表征。

高质量数据加持精度

Piccolo2的微调数据主要来自于开源社区和GPT-4生成的合成数据。同时，对于检索任务，Piccolo2也应用了难负样本挖掘来扩充数据质量。数据配比如下图所示：

实验介绍：

通过多任务混合损失训练的方式，Piccolo2在C-MTEB上达到了70.95的平均精度，相比之前同量级的SOTA模型acge-embedding，综合评分提升了约1.9个点。

同时，得益于MRL技术的加持，Piccolo2在Embedding小维度上也有相当强的优势——从1792维度降到256维度，精度也仅仅下降了约1个点。

如此，MRL算法让Embedding模型具备多粒度的表达能力，也为开发者们提供更加灵活的选择。

Piccolo2更多技术细节可以查看：

论文地址：https://arxiv.org/abs/2405.06932

Hugging Face地址：https://huggingface.co/sensenova/piccolo-large-zh-v2

如何学习AI大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

AI_小站

关注

22
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
拿下SOTA！最强中文Embedding模型对标OpenAI，技术路线公开

RAG的一大优点就在于知识库可以通过文档的形式进行外挂，这使得知识能够更频繁地更新，而无需耗时耗力再通过二次预训练向LLM灌入这些知识，并且RAG的检索步骤能够提供上下文给模型作为参考依据，让大模型回答更加准确。因此在Piccolo2中，商汤采用了多任务混合损失训练方法，针对不同的下游任务利用不同的训练损失，并证明了其优越的性能。通过多任务混合损失训练的方式，Piccolo2在C-MTEB上达到了70.95的平均精度，相比之前同量级的SOTA模型acge-embedding，综合评分提升了约1.9个点。
复制链接

扫一扫