中英双语8K向量大模型新鲜出炉，企业出海必备！

Jina AI

已于 2024-01-18 15:28:19 修改

阅读量1.4k

点赞数 26

文章标签：人工智能 embedding

于 2024-01-10 19:37:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jina_AI/article/details/135516436

版权

Jina AI推出了中英双语文本向量模型jina-embeddings-v2-base-zh，支持8K Token处理，适用于多语言应用，尤其适合中国企业拓展国际业务。该模型在CMTEB排行榜表现出色，提供高质量双语向量表示，可用于文档分析、AI搜索、RAG客服机器人、NLP应用和推荐系统等领域。

摘要由CSDN通过智能技术生成

自从我们的 Embeddings V2 获得各界好评后，今日，我们推出了全新的中英双语文本向量大模型：jina-embeddings-v2-base-zh。此模型不仅继承了 V2 的全部优势，能够处理长达八千词元的文本，更能流畅应对中英文双语内容，为跨语种的应用插上了翅膀。

jina-embeddings-v2-base-zh 之所以表现卓越，全赖优质的双语数据集，经过我们严格且平衡的 预训练、一阶微调和二阶微调。这种三步走的训练范式不仅泛化了模型的双语能力，更有效的降低了模型偏见，解决了多语言模型时常遭遇到的“不患寡而患不均”的问题。

模型特色一览

特色 1：双语无缝对接

jina-embeddings-v2-base-zh 模型能够流畅处理中英文本，无论是作为搜索查询还是目标文档。中英文本中意义相近的内容都会被映射到相同的向量空间，为多语言应用奠定了坚实基础。

特色 2：8k Token 超长文本支持

我们的模型支持长达 8K Token 的文本处理，这在开源向量模型中独树一帜，为处理更长的文本段落提供了显著优势。

特色 3：高效紧凑的模型结构

jina-embeddings-v2-base-zh 模型以 322MB 的轻巧体积（包含 1.61 亿参数），输出维度为 768，能够在普通计算机硬件上高效运行，无需依赖 GPU，极大地提升了其实用性和便捷性。

模型性能卓越

在 CMTEB 排行榜的激烈竞争中，我们的 Jina Embeddings v2 模型在 0.

最低0.47元/天解锁文章

关注

26
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。