Nomic Embed

whaosoft143

已于 2024-02-03 15:55:42 修改

阅读量1k

点赞数 9

分类专栏：人工智能文章标签：人工智能

于 2024-02-03 15:53:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29788741/article/details/136008963

版权

模型参数量只有 137M，5 天就能训练好。

一周前，OpenAI 给广大用户发放福利，在下场修复 GPT-4 变懒的问题后，还顺道上新了 5 个新模型，其中就包括更小且高效的 text-embedding-3-small 嵌入模型。击败OpenAI，权重、数据、代码全开源，能完美复现的嵌入模型来了

我们知道，嵌入是表示自然语言或代码等内容中概念的数字序列。嵌入使得机器学习模型和其他算法更容易理解内容之间的关联，也更容易执行聚类或检索等任务。可见，嵌入在 NLP 领域是非常重要的。

不过，OpenAI 的嵌入模型并不是免费给大家使用的，比如 text-embedding-3-small 的收费价格是每 1k tokens 0.00002 美元。

现在，比 text-embedding-3-small 更好的嵌入模型来了，并且还不收费。

AI 初创公司 Nomic AI 宣布推出 Nomic Embed，这是首个开源、开放数据、开放权重、开放训练代码、完全可复现和可审核的嵌入模型，上下文长度为 8192，在短上下文和长上下文基准测试中击败 OpenAI text-embeding-3-small 和 text-embedding-ada-002。

文本嵌入是现代 NLP 应用程序的一个组成部分，为 LLM 和语义搜索提供了检索增强生成 (RAG)。该技术将有关句子或文档的语义信息编码为低维向量，然后用于下游应用程序，例如用于数据可视化、分类和信息检索的聚类。目前，最流行的长上下文文本嵌入模型是 OpenAI 的 text-embedding-ada-002，它支持 8192 的上下文长度。不幸的是，Ada 是闭源的，并且训练数据不可审计。

不仅如此，性能最佳的开源长上下文文本嵌入模型（例如 E5

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。