Jina AI-CSDN博客

原创 Correlations：氛围测试你的向量模型

在我们的应用场景中，就是在相关性矩阵里，找到一个 k 行 k 列的子矩阵，使其内部所有相似度值的总和达到最大。这样做的好处是能给你一个大概的印象，但它也有个绕不开的局限性，那就是可能会把向量之间两两对应的关键关系信息给弄丢了。这样一来，我们就能直观地分析文本与图像间的相关性模式，也为多模态应用提供了一种实用的可视化分析途径。Correlations 能直观地展示出不同策略下相似性模式的变化，帮助评估和选择更合适的内容块边界，也让优化分块这件事更有依据，能省去不少反复调试分块策略的功夫。

2025-05-29 11:25:26 558

原创这样更公平：用jina-reranker-m0为多模态文档打分重排

由于我们有两种模态，对于任何给定的查询，我们实际上会面临两个潜在的语义鸿沟：查询与文本之间的鸿沟，以及查询与图像之间的鸿沟。更进一步，如果我们想合并“Query-to-text”和“Query-to-image”两种检索方式的候选结果，在分数根本不具备可比性的情况下，我们又该如何有意义地选出最佳匹配呢？简单比较或组合这些分数，很难得到一个合理的结果。简单来说，“模态鸿沟”指的是不同模态（比如图像和文本）的向量在共享的向量空间中彼此分离的现象，不同模态产生的相似度分数可能处于不同的“尺度”或“分布范围”。

2025-05-27 08:18:21 548

原创喝下这一碗模型汤，掌握向量模型的训练秘方

SWA 的研究表明，在许多常见情况下，简单粗暴地对模型的权重进行平均，就能提升模型的泛化性能，也就是模型在未见过的新数据上的表现能力。从这里的结果来看，虽然把专门为问答任务和检索任务训练的模型融合起来，确实能让它们在这两个任务上的综合表现都有所提升，但是，一旦把那个为语义相似度（STS）训练的模型也加进来，反而会在所有任务类别上都把特定任务的性能给拉低了。因此，如果要合并的所有模型，它们的权重都处在同一个“损失盆地”内，那么它们的权重值本身就会相当接近，此时对它们进行平均，成功的可能性就比较大。

2025-05-09 18:31:49 313

原创文本向量的长度偏差及其在搜索中的影响

最后，认识到模型的局限性，是一种务实的态度，这对于构建可靠、高效的系统至关重要。这样一来，我们可能就想设一个阈值，比如 0.459（平均值 + 1 倍标准差），或者干脆四舍五入到 0.5，然后规定：任何相似度低于这个值的文档对，内容就基本不相关。在基于向量的搜索里，虽然总能找到一个“最佳匹配”的结果，但长度偏差的存在，导致我们无法单凭相似度分数，就判断这个“最佳匹配”或者其他得分较低的结果，内容是否真的相关。在下面的直方图（图 6）中，红色代表句子的长度分布，蓝色代表完整文档的长度分布，方便大家比较。

2025-04-17 09:02:42 922

原创 Jina AI 携搜索小模型亮相 ICLR 2025 新加坡

在这个高度垂直的任务上，ReaderLM-V2 的表现甚至超越了像 GPT-4o 这样的业界领先大模型，同时效果提升显著。除了技术的交流，我们也非常乐意介绍 Jina AI 的工作与实习机会，并为您准备了精美的纪念品。CLIP 模型在图文理解任务上表现亮眼，但其内部存在一个常被忽视的“模态鸿沟”：图像和文本的向量各自占据不同的领地。如果您也将参加 ICLR 2025，欢迎在会场找到我们的团队成员，与我们一起深入探讨对 AI 搜索的研究洞见。我们发现，简单的向量平移并不能解决问题，反而会破坏向量空间的结构。

2025-04-11 16:23:38 962

原创 jina-reranker-m0 全新多模态多语言重排器

在 ViDoRe（视觉文档检索，NDCG@5 达 91.02）和 M-BEIR（跨模态检索，比如文搜图、图搜文）这些基准上，m0 表现非常扎实，能够有效理解并排序包含丰富视觉信息的文档，效果明显好过纯文本模型，也优于我们测的一些同类多模态竞品（如基于 Qwen2-VL 的 MonoQwen2-VL-v0.1）。对于其他的输入组合（如图像到图像、图像到多模态文档、文本到多模态文档），模型也具备零样本（zero-shot）处理能力，底层架构兼容这些模态组合的输入，只是训练阶段没有针对这些模态组合进行优化设计。

2025-04-09 12:01:20 1062

原创 Jina AI x Google Cloud: DeepSearch技术沙龙·深圳站报名开启！

Deep(Re)Search 并非简单的 RAG，而是基于“搜索、阅读、推理”循环，利用长上下文模型的能力，以解决复杂查询，并提供高质量拿走即用的搜索结果。如果你关心如何将 DeepSearch 理念落地，想了解实际开发中的具体问题和解决方案，欢迎加入我们，共同探讨和交流。欢迎在报名时注明你当前在相关领域遇到的技术挑战，或希望在沙龙中深入探讨的问题，我们将尽力在活动中进行交流。关于长上下文 LLM、推理模型、Embeddings 在实际应用中的性能表现与局限性的真实洞察。

2025-04-07 17:01:39 411

原创在DeepSearch中用DeepSeek-R1来做动作决策会更好么？

我们基于 R1 做的这些尝试，正好为我们后续的探索打了个样：怎么才能更好地把各种工具跟侧重推理的 LLM 结合起来，去完成那些复杂的搜索任务。但后来我们发现，抓取下来的网页里，相关的好酒店不止 5 家。在第 n 次迭代中，模型输出了工具调用指令后，系统会执行这些工具调用，并将返回的结果嵌入到提示词的 Tool Results 部分，供模型在第 n+1 次迭代中进行推理。推理模型在训练时所侧重的能力（数理逻辑），和我们试图让它应用的全新领域（需要大量信息检索和验证的任务）之间，还存在着一道不小的鸿沟。

2025-04-02 10:05:27 800

空空如也

空空如也