cde，世界上最好的 BERT 大小文本嵌入模型

最新推荐文章于 2024-11-13 10:36:18 发布

程序员笑武

最新推荐文章于 2024-11-13 10:36:18 发布

阅读量1k

点赞数 21

文章标签： bert 深度学习人工智能 langchain 测试用例前端知识图谱

本文链接：https://blog.csdn.net/m0_59164304/article/details/142830587

版权

常规的文本嵌入模型训练一般存在两个主要问题：

训练起来很复杂，需要很多技巧：如大batch、蒸馏、负样本…
训练好的嵌入模型，并不知道它们会被用在什么语料库中，因此所有文本都是以相同的方式编码的

针对（1），工作中开发了一种新的训练技术：上下文批处理。所有批次共享大量上下文，批次间差异大，批次内差异小。一个批次可能关于诺贝尔物理奖颁布给了Hinton，下一个批次可能关于小米su7。

对于（2），提出了一种新的上下文嵌入架构。这需要更改训练流程以包含上下文的信息，本质上，模型可以看到周围的额外文本，并据此更新嵌入内容。

在MTEB上，以143M参数来获得了65分的结果！

核心原理可以分两部分来看

损失，常规的对比学习中，训练目标通常是通过最大化正样本对的相似度，最小化负样本对的相似度来训练。这里，通过构建更困难的batch（即更难区分的负样本对）来提高模型的性能。整体流程就是组划分->过滤FN->packing->对比训练

上下文文档嵌入。如何在编码文档时考虑到上下文信息。

分为2阶段来完成，第一阶段就是获取上下文的嵌入结果，然后将这些上下文嵌入作为第二阶段编码器的输入。需要注意的是，由于文档是无序的，所以需要移除位置信息；为了提高训练效率，同一批中上下文共享，避免第一阶段的重复计算。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述