自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Jina AI 的博客

从 0 到 1,用 Jina 搭建一个神经搜索系统

  • 博客(207)
  • 收藏
  • 关注

原创 EMNLP 2024 BoF 活动报名:用 Embeddings、Reranker、小型语言模型打造更优搜索!

在 2023 年 EMNLP 大会上,Jina AI 举办了 一场关于向量技术前沿探索的 Bird of a Feather (BoF) 会议,超过 80 位参会者,包括 DeepMind、Meta 等机构的顶尖研究员以及行业专家们,一起讨论向量前沿技术的最新进展。<<< 闪电分享、圆桌讨论和午餐会>>>今年的 EMNLP 2024 在迈阿密举行,我们将延续在...

2024-11-07 20:58:57 572

原创 RAG 系统的分块难题:小型语言模型如何找到最佳断点?

之前我们聊过 RAG 里文档分块 (Chunking) 的挑战,也介绍了迟分 (Late Chunking) 的概念,它可以在向量化的时候减少上下文信息的丢失。今天,我们来聊聊另一个难题:如何找到最佳的分块断点。虽然迟分对边界位置不敏感,但也不代表我们可以随便乱切,毕竟可读性对人和大模型都很重要。所以我们现在的思路是:既然用了迟分,就不用太担心语义或上下文丢失的问题。边界好坏,迟分都能处理,因此...

2024-11-05 09:00:49 989

原创 还在用 CLIP?Jina-CLIP 告诉你多模态搜索的正确打开方式

近年来,多模态搜索,或者说把文本和图像融合进统一的搜索体验,在 OpenAI 的 CLIP 等模型的带动下发展得如火如荼。这些模型有效地弥合了视觉数据和文本数据之间的语义鸿沟,可以把图像和相关的文本对应起来。然而,很多做实际应用的开发者很快会发现,CLIP 及其同类模型虽然在图文匹配上表现很出色,但在长文本理解和复杂语义关系处理上就力不从心了。所以我们推出了 jina-clip-v1,目标就是构建...

2024-10-31 17:38:19 926

原创 Jina Classifier API:高性能的零样本和小样本分类器

分类是向量模型的常见下游应用。文本向量模型可以用来识别垃圾邮件或进行情感分析。对于多模态向量模型,比如 jina-clip-v1,可以被用于基于内容的筛选和标签标注等任务。最近,向量模型还充当了大模型路由器(LLM router)的角色,根据任务的复杂性和成本选择合适的模型:将简单的算术问题分配给小模型,将复杂的推理任务交由更强大的大模型。今天,我们 Jina AI 搜索底座推出了一款高性能分类器...

2024-10-23 16:54:07 773

原创 Jina Embeddings v2 到 v3 的迁移指南

Jina Embeddings v3 我们最新推出的 5.7 亿参数的顶级文本向量模型,在多语言和长文本检索任务上达到当前最佳水平 SOTA。v3 不仅拥有更强大的性能,还有很多惊喜新功能。如果您仍在使用 2023 年 10 月发布的 Jina Embeddings v2,我们强烈建议您尽快迁移至 v3。先简单说下 Jina Embeddings v3 的亮点:支持 89 种语言: 突破 v2 只...

2024-10-22 08:00:43 764

原创 多语言向量模型的语言鸿沟(Language Gap),对比学习能否带来突破?

多语言向量模型训练时,有一个棘手问题 -- 语言鸿沟(Language Gap)。简单来说,就是不同语言中表达相同含义的短语,它们的向量却可能相距甚远,无法有效对齐。理想情况下,一段文本及其不同语言的翻译版本,应该具有高度近似的向量表示。这样,我们才能像处理单语言文本一样,无缝地进行跨语言分析和应用。然而现实情况确是,模型在训练过程中容易关注原文的表层语言特征,形成一种“语义鸿沟”,导致跨语言任务...

2024-10-15 18:05:51 1052

原创 迟分是什么,不是什么【下篇】

本篇文章主要是把迟分策略里容易混淆的概念和对比再详细讲讲,强烈建议各位先去看看上一篇:【上篇】长文本 Embedding 模型中的“迟分”策略。建议阅读顺序:上篇、下篇、研究论文:https://arxiv.org/abs/2409.04701/把长文档切块,这其中有两个关键问题:首先,边界断点怎么定?你可以用固定长度的 Token,或者固定数量的句子,再高级点的就用正则表达式或者语义分割模型...

2024-10-14 14:01:39 850

原创 Jina Embeddings V3:站在多语言向量模型最前沿

还在为多语言的文本向量发愁?担心模型太大跑不动?Jina Embeddings V3 来了,这款 5.7 亿参数的顶级文本向量模型,在多语言和长文本检索任务上达到当前最佳水平 SOTA。内置多种 LoRA 适配器,可以根据你的需求,针对 检索、聚类、分类和匹配 的不同场景进行定制,获得更精准的向量化效果。多语言支持: 支持 89 种语言,全面超越 multilingual-e5-large-ins...

2024-09-20 10:00:42 1617

原创 全球首个多语言 ColBERT:Jina ColBERT V2 和它的‘俄罗斯套娃’技术

在 RAG 领域,多向量模型ColBERT通过为文档的每个 token 生成独立的向量,带来了检索精度的提升。但同样也带来了存储需求的剧增,并且仅支持英文,限制了其应用范围。为解决这些问题,我们改进了 ColBERT 的架构和训练流程,特别是在多语言处理方面取得了突破。最新的 Jina-ColBERT-v2 支持 89 种语言,并引入了自定义输出维度选项,显著减少存储需求,提升了多语言检索的效...

2024-09-04 19:13:37 748

原创 长文本 Embedding 模型中的“迟分”策略

大约一年前,2023 年 10 月,我们推出了全球首个支持 8K 上下文长度的开源 Embedding 模型 —— jina-embeddings-v2-base-en。自此,长文本在 Embedding 模型中的应用引发了广泛讨论和争议。信息压缩问题:将数千字的长文本编码为单一 Embedding 表示会导致语义信息的"过度压缩",使得检索系统难以准确定位特定信息。检索粒度不足:许多应用,尤其是...

2024-08-26 11:58:52 1006

原创 大模型分不清 9.9 与 9.11 谁大,那 Embedding 模型呢?

这是我今天在维也纳举行的 ICML 会议上被问到的问题。在茶歇期间,一位 Jina 用户向我提出了一个源自 LLM 社区最近讨论的问题。他问我们 Jina Embeddings 能不能判断 9.11 比 9.9 更小,很多大模型在这个小问题上翻了车。我说:“老实说,我也不知道。” 他接着详细阐述了这个能力对于他应用的重要性,并暗示:Tokenizer 可能是问题的源头,我若有所思点点头,脑海里开始构思如何用实验来找到答案。

2024-08-05 17:50:25 981

原创 Jina Reranker v2:多语言支持、函数调用、代码搜索,超快推理!

Jina Reranker v2 是专为 Agentic RAG 打造的高性能 Reranker 模型。它不仅支持 100 多种语言的精准搜索和代码检索,更将推理速度提升至前代产品的 6 倍。作为 Jina AI 的最新力作,Jina Reranker v2 为 RAG 系统开发者带来前所未有的效率和准确性。这款模型具备以下特性:多语言支持:覆盖上百种语言,搜索效果领先 bge-reranker-...

2024-07-01 17:52:33 2285

原创 Jina CLIP v1:一个模型,两种模态,四种搜索方向

Jina CLIP v1 沿用了 OpenAI CLIP 的双编码器架构:两个编码器共同训练,生成在同一向量空间中的输出结果。在文本编码器,我们采用自身的向量模型所使用的 Jina BERT v2 架构,支持高达 8k token 的长文本输入,输出维度 768,明显优于 CLIP,能够可以处理更长的文本,并生成更精确的向量。

2024-06-19 12:38:02 1116

原创 Jina CLIP v1:多模态向量模型,为文本和图像而生!

CLIP 模型架起了文本和图像的桥梁,但实际上很少有人会用它来进行文本检索,因为CLIP的文本编码器无法有效的对长文本进行语义建模。为了解决这一问题,我们推出了 Jina CLIP v1,一个增强版的 OpenAI CLIP 模型,擅长文本-文本、文本-图像、图像-文本、图像-图像四个方向的检索。从现在起,你的 CLIP 模型不仅是图像检索器,更是强大的文本检索器。在构建多模态 RAG 应用时,你...

2024-06-12 19:31:56 1172

原创 MIT 科技评论最新报告揭示多模态 AI 带来的巨大机遇

相比于单模态人工智能,能够同时处理多种类型信息的多模态AI技术,带来了更大的机遇,同时也要面临更复杂的挑战。MIT 科技评论在发布的最新洞察报告《多模态:人工智能的新前沿》中,详细阐述了多模态人工智能的发展状况和未来潜力,及其复杂性与挑战性。多模态是一个新兴术语,但它所描述的实际上是一种源远流长的理解方式:自人类出现以来,我们就是通过这种方式来了解世界的。人们通过视觉、听觉和触觉等多种感官,从各种...

2024-05-14 18:18:45 893

原创 Jina Reranker 新模型发布,更小、更快、更便宜!

在传统文本搜索技术已经相对成熟的背景下,如何进一步提高搜索的效率和速度成为了新的追求目标。应对这一挑战,Jina Reranker 模型系列推出了两款针对性能调优的新模型:jina-reranker-v1-turbo-en 和 jina-reranker-v1-tiny-en,它们在保证搜索高准确度的同时,特别强化了处理速度和资源优化。这两款模型现已上线AWS Sagemaker 和 Huggi...

2024-04-23 17:04:01 1178

原创 关注企业 RAG 应用私有部署,Jina AI 模型登陆 Amazon SageMaker

本文主要介绍了如何在 AWS(亚马逊云服务)上使用 Jina AI 的 Embeddings 和 Rerankers 模型来构建 RAG 应用,涵盖从配置 AWS 账户、设置 Python 环境、订阅模型、加载数据集、启动模型、构建和索引数据集的各个步骤。此外,还展示了如何利用FAISS 数据库进行语义搜索、以及整合 Mistral-Instruct LLM 用于生成结果等。Jina AI 的 ...

2024-04-18 15:16:42 1340

原创 搜索准确性提升 20%,Jina Reranker 成为 RAG 优化的新标杆!

日前,我们正式发布了 Jina Reranker(jina-reranker-v1-base-en),专为提高搜索准确性打造。Jina Reranker 在多个权威测评中屡获领先,实验数据显示,相比简单 RAG 系统,搭载该模型的检索系统命中率提高 8%,MRR 更是飙升 33%。

2024-03-05 19:55:51 1790

原创 RAG 领域的新宠:为什么 AI 圈都在谈论 Jina ColBERT?

向量模型新选择!

2024-02-27 03:52:02 1626

原创 Jina AI 请回答 2023

年度回顾- Jina AI-2023 年,正如它所对应的生肖“兔”,充满活力和智慧。AI 技术在全球范围内的颠覆性发展,让 2023 年成为大家公认的人工智能元年。作为从四年前成立起,就专注于多模态 AI 技术研发的前沿科技公司,我们在 2023 年取得了长足的进展。在这辞旧迎新之际,我们希望通过回顾过去一年在技术、产品、品牌、社区方面积累的成果,和大家一起迎接充满力量和希望的龙年!从 2020...

2024-02-06 16:02:28 955 1

原创 Jina AI 发布中英和英德双语 8K 向量模型,百万 Token 大放送!

亮点提前看双语模型支持:继 8k 向量模型在 Huggingface 突破百万下载后,Jina Embeddings 系列又开源了中英、英德双语 8k 向量模型,分别为 jina-embeddings-v2-zh 和 jina-embeddings-v2-de。百万 Token 随心用:Jina AI 向所有用户赠送一百万 token,访问 jina.ai/embeddings 即可免费领取密钥,...

2024-02-02 16:44:35 1062

原创 Jina AI 发布中英和英德双语 8K 向量模型,即刻开源!

作为多模态人工智能技术领域的翘楚,Jina AI 的使命是通过创新的向量大模型和提示词技术,铺平通往多模态 AI 的未来之路。我们正在积极扩展多语言产品线,以满足更广泛的客户需求。在 Jina Embeddings 英语向量模型突破百万下载后,今天,我们正式开源了两款双语向量模型:中英双语(Chinese-English)和英德双语(English-German)向量模型,这也是全球首次推出支持 8K 双语文本的开源向量模型。

2024-01-29 18:33:21 1327

原创 喜讯!Jina AI 荣登三大中国技术先锋年度榜单

中国技术先锋年度评选至今已走过了十一个年头,从最早的TopWriter评选,到中国技术品牌影响力企业,再到 4 年前初次发起的中国开源先锋 33 人以及 2021 年首发的中国开源码力榜。我们密切关注着数字经济蓬勃发展的背后,为推动数字化、信息化与智能化进程所做出的巨大努力的企业和个人。他们面对不断变化的外部环境,扎根行业,他们信奉技术力量,敢于技术创新,践行技术信仰,他们是技术先锋,探索改变...

2024-01-24 19:11:04 479

原创 中英双语8K向量大模型新鲜出炉,企业出海必备!

自从我们的 Embeddings V2 获得各界好评后,今日,我们推出了全新的中英双语文本向量大模型:jina-embeddings-v2-base-zh。此模型不仅继承了 V2 的全部优势,能够处理长达八千词元的文本,更能流畅应对中英文双语内容,为跨语种的应用插上了翅膀。jina-embeddings-v2-base-zh 之所以表现卓越,全赖优质的双语数据集,经过我们严格且平衡的预训练、一阶...

2024-01-10 19:37:15 1525

原创 一张地毯,能讲出怎样的产品故事?

AKIA 地毯工坊是一家集当代艺术与设计织造相融的地毯品牌商,历经 15 年发展,已在高端地毯行业站立脚跟。作为产品经理,Kevin 一直以来对地毯有着深厚的感情。他认为地毯不仅是家居装饰品,更是艺术品。它承载着设计师的创意和匠心,也传递着品牌的故事和情感。然而,如何让地毯“说话”,让消费者更深入地了解地毯背后的故事和意义,一直是地毯品牌商面临的挑战。于是,AKIA 地毯工坊决定引入 AI 产品来...

2023-12-28 11:41:02 1041

原创 来自开发者的点赞,Jina AI 入选 2023 中国技术品牌影响力企业榜

2023 年 12 月 26 日,中国技术先锋年度评选 | 2023 中国技术品牌影响力企业榜单正式发布。作为中国领先的新一代开发者社区,SegmentFault 思否依托数百万开发者用户数据分析,各科技企业在国内技术领域的行为及影响力指标,最终评选出 30 家上榜企业。Jina AI 非常荣幸能被认定为 2023 年中国技术品牌影响力企业之一,这不仅是对我们在多模态人工智能领域技术创新的认可,也...

2023-12-26 13:48:08 395

原创 EMNLP 2023 亮点回顾:大模型时代下的 NLP 研究

EMNLP 2023 精华总结,Jina AI 带你走进前沿,全面回顾!

2023-12-20 23:05:08 2051

原创 Jina AI 的 8K 向量模型上线 AWS Marketplace,支持本地部署!

在当前多模态 AI 和大模型技术风头正劲的背景下,Jina AI 始终领跑于创新前沿,技术领先。2023 年 10 月 30 日,Jina AI 隆重推出 jina-embeddings-v2,这是全球首款支持 8192 输入长度的开源向量大模型,其性能媲美 OpenAI 的闭源 text-embedding-ada002。如今,jina-embeddings-v2 正式登陆 AWS Market...

2023-11-21 19:01:55 1173

原创 11月24-25号,来机器之心 AI 论坛深度探讨大模型时代的向量数据库

目前检索增强生成(RAG)已成为当下大模型领域内落地最多也最迫切的领域之一,然而如何用 RAG 系统搭建企业知识库,其技术实现过程中容易走哪些弯路;从数据提取、索引、检索再到生成,如何选择合适的组件并组合以实现最佳的检索性能等等都是技术应用和行业发展的阻碍。图源公众号:土猛的员外尤其在 Embedding 向量模型这一关键组件上,当我们探索向量模型的选择时,我们会发现大多数开源向量模型只支持最大 ...

2023-11-20 18:07:55 244

原创 零门槛,不等待!立刻领取 Embedding API 密钥及 1 万免费 tokens!

2023 年 10 月 30 号,Jina AI 正式发布了 jina-embeddings-v2,是全球首个唯一支持 8K(8192)输入长度的开源向量大模型,今天,我们趁热打铁,为企业和开发者提供 Embedding API,即插即用!借助该 API,开发者可以用于改进检索增强生成 (RAG) 系统的效果,用以解决大型语言模型的上下文长度限制、幻觉问题和知识注入问题。现在我们提供了其英文版本...

2023-11-06 17:49:33 820

原创 Jina AI 推出全球首款开源 8K 语义向量模型,比肩 OpenAI

有了 jina-embeddings-v2,我们达成了一个重要的里程碑。其中,“8K 长度”和“开源”这两点特别受到业界的瞩目,正如 HackerNews 上读者的评论所言,支持 8k 输入长度在表达能力和计算效率之间取得了可喜的平衡,而其中的关键,就在于 jina-embeddings-v2 独特的优势 ——jina-embeddings-v2 并非对前代模型的简单修订,而是经过了深入研发和优化后的全新设计,我们团队付出了很多努力,从数据收集、处理再到模型调优,使得 v2 模型在性能表现上有了质的飞跃。

2023-10-30 10:54:58 1112

原创 Jina AI 推出全球首款开源 8K 向量模型,比肩 OpenAI

作为多模态人工智能技术领域的翘楚,Jina AI 的愿景是铺平通往多模态 AI 的未来之路。今天,Jina AI 在向着该愿景前进的路上,达成了一个重要里程碑。我们正式发布了自主研发的第二代文本向量模型:jina-embeddings-v2,是全球唯一能支持 8K(8192)输入长度的开源向量模型。据 MTEB 排行榜显示,jina-embeddings-v2 与 OpenAI 的专有模型 tex...

2023-10-30 10:01:50 304

原创 DocArray 近期更新:全面支持 Pydantic V2

DocArray 是一个专门为多模态数据的表示、传输、存储和检索而设计的 Python 库。其设计专为多模式人工智能应用程序的开发而量身定制,可保证与广泛的 Python 和机器学习生态系统的无缝集成。在 2022 年 1 月,DocArray 在 Apache License 2.0 下公开分发,并在 LF AI & Data Foundation 成为了一项沙箱项目。GitHub 链接...

2023-10-17 09:00:06 302

原创 一步到位,Jina 近期都更新了哪些新功能

Jina 是一个云原生技术构建的多模态 AI 应用框架。通过 gRPC、HTTP 和 WebSockets 实现服务交互,易于扩展并可快速部署。开发者只需专注于逻辑和算法,无需为底层架构烦心。Jina 支持从本地到 Kubernetes 等高级编排框架的无缝部署,致力于为每位开发者提供先进的云原生技术解决方案,并支持各种深度学习框架和数据类型。GitHub 链接:http://oss.jina.a...

2023-10-17 09:00:06 187

原创 DocArray Updates 0.38+0.39

Pydantic v2 的核心部分采用 Rust 编写,并为 DocArray 提供了显著的性能改进:JSON 序列化速度提高了 240%,并且使用 TorchTensor 等非本地类型验证 BaseDoc 和 DocList 时,速度提高了 20%。如果您使用 Pydantic v2,您需要调整您的 DocArray 代码以适配新的 Pydantic API。如果您希望构建一个不包含此 ID 字段的模型的 API,这可能会出现问题。如果您在您的应用程序中使用了这个方法,请更新您的代码以返回。

2023-10-11 18:07:27 162

原创 Jina 近期更新

当将深度嵌套模式(具有2级或更多级嵌套的DocArray模式)指定为Executor端点的输入或输出,并在Flow中部署了Executor时,Gateway将无法获取有关endpoints及其输入/输出模式的信息。在之前的版本中,当使用 HTTP 协议时,Gateway 会等待直到来自 Executor 的响应的所有分块都已经完成流式传输。更清晰的文档和类型提示:Pydantic 提供了强大的类型推断和自动文档生成功能,使得开发者可以快速了解参数的结构、类型以及可能的取值范围,提高代码的可读性和可维护性。

2023-10-11 17:57:53 107

原创 Jina AI @Slush 上海 地表最酷科技创新大会来啦!

地表最酷的科技创新大会S 创上海 2023The Final Slush Shanghai即将在 9 月 22 - 23 日空降上海Jina AI 受邀参与本次大会,并带来好玩的互动!多种门票限时限量派送中还在犹豫什么!!就等你啦~什么是 S 创 2023 上海大会本次 S 创上海 2023 科技创新大会预计吸引10,000+ 参会者,包括 180+ 演讲嘉宾、1,500+ 初创企业、12,...

2023-09-15 14:50:13 149

原创 用两成数据也能训练出十成功力的模型,Jina Embeddings 这么做

在重新排序任务上, Jina Embeddings 系列模型,特别是“jina-large-v1”和“jina-base-v1”模型,表现出了抢眼的竞争力,超越或等于“gtr-t5-large”和“sentence-t5-xxl”等当前顶尖模型。,就像上面的例子那样,每组数据都有三个部分:一个“锚点”(主句子)、一个“隐含”(和主句子意思相似的句子)和一个“否定”(和主句子意思相反的句子),并将其纳入训练数据中,帮助模型识别和区分语义不一致的表达。这样做既可以加速训练,又确保每个数据集都能得到合适的关注。

2023-09-13 18:49:10 477

原创 用两成数据也能训练出十成功力的模型,Jina Embeddings 这么做

在重新排序任务上, Jina Embeddings 系列模型,特别是“jina-large-v1”和“jina-base-v1”模型,表现出了抢眼的竞争力,超越或等于“gtr-t5-large”和“sentence-t5-xxl”等当前顶尖模型。,就像上面的例子那样,每组数据都有三个部分:一个“锚点”(主句子)、一个“隐含”(和主句子意思相似的句子)和一个“否定”(和主句子意思相反的句子),并将其纳入训练数据中,帮助模型识别和区分语义不一致的表达。这样做既可以加速训练,又确保每个数据集都能得到合适的关注。

2023-09-13 18:47:37 488

原创 SceneXplain 图片叙事升级:如何让图片听得到

‍SceneXplain 是一个由多模态 AI 驱动的产品服务,它不仅提供一流的图像和视频标注解决方案,还具备卓越的多模态视觉问答能力,为用户解锁视觉内容的全新维度。在《图像描述算法排位赛》中,我们探讨了图像描述(Image Caption)算法如何能够解码和诠释复杂的视觉信息。这些算法不仅仅地告诉你“图中有一个苹果”,更能深入到场景的分析,描述为“一个洒满阳光的窗台上,熟透的红苹果鲜艳而饱满,...

2023-08-30 20:33:24 364

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除