Jina AI 携搜索小模型亮相 ICLR 2025 新加坡

原创于 2025-04-11 16:23:38 发布 · 1.1k 阅读

CC 4.0 BY-SA版权

文章标签：

四月，机器学习领域的目光将汇聚新加坡，顶级会议 ICLR 2025 定于 4 月 24 日至 28 日在新加坡博览中心举行。

当大家都在追逐大模型时，Jina AI 将带来不一样的声音：我们聚焦于更小巧、更高效的多模态搜索模型。

这次，我们的研发团队将带着 3 篇重磅论文空降狮城，分享 Jina AI 在这一方面的最新突破。团队成员 Sedigheh Eslami、Andreas Koukounas、王峰以及 CEO 肖涵将在现场，与全球 AI 研究者同台交流。

标题：Mitigate the Gap: Improving Cross-Modal Alignment in CLIP(弥合鸿沟：改进 CLIP 中的跨模态对齐)

时间：4 月 26 日 10:00-12:30

形式：Poster 报告

论文链接：https://arxiv.org/abs/2406.17639

CLIP 模型在图文理解任务上表现亮眼，但其内部存在一个常被忽视的“模态鸿沟”：图像和文本的向量各自占据不同的领地。这项研究直面这一核心挑战，揭示了模态鸿沟正是限制 CLIP 性能的关键瓶颈之一。

我们发现，简单的向量平移并不能解决问题，反而会破坏向量空间的结构。为此，我们提出了一种创新方法：通过共享编码器参数，并结合一种分离式的目标函数进行语义正则化，双管齐下。

实验结果证明，该方法成功地拉近了不同模态表征间的距离，有效缓解了模态割裂问题，并显著提升了模型在多个下游任务中的表现。这表明，参数共享与语义分离的结合，是打通跨模态理解壁垒的有效途径。

关键洞见：

标题：jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images（jina-clip-v2：统一文本和图像的多语言多模态向量模型）

时间：4 月 28 日 10:40-11:50

形式：口头报告

论文链接：https://arxiv.org/abs/2412.08802

这是一项"一箭双雕"的研究，我们团队研发的 jina-clip-v2 模型不仅精于跨模态检索，在纯文本检索任务上的表现也足以媲美专业文本模型。

其核心在于多任务、多阶段的对比学习框架，并通过融合 Matryoshka 表示学习(MRL)技术，生成的向量可以按需截断。用户可以根据实际应用场景（例如，快速预览 vs. 精确匹配）选择不同长度的向量，在高性能与低存储成本间灵活权衡。此外，模型还具备出色的多语言处理能力。

关键洞见：

标题：ReaderLM-V2: Small Language Model for HTML to Markdown and JSON(ReaderLM-V2：HTML 转 Markdown 和 JSON 的小语言模型)

时间：4 月 28 日 15:00-16:00

形式：Poster 报告

论文链接：https://arxiv.org/abs/2503.01151

ReaderLM-V2 以其仅 15 亿参数的紧凑体量，在网页内容提取方面表现惊人。它能精准解析复杂 HTML，并将其转换为干净的 Markdown 或 JSON 格式，即使长达 512K tokens 也游刃有余。

在这个高度垂直的任务上，ReaderLM-V2 的表现甚至超越了像 GPT-4o 这样的业界领先大模型，同时效果提升显著。

该模型的成功得益于两大关键创新：一是 Jina AI 团队独创的三阶段数据合成策略，通过“起草-精炼-评判”循环生成高质量、多样化的训练样本；二是统一的训练框架，支持自对弈式迭代学习，使模型能够不断从自身错误中学习和改进，不断突破性能极限。

关键洞见：

以上三项研究代表了 Jina AI 在构建搜索基座模型上的最新进展，我们致力于推动搜索技术的边界。

如果您也将参加 ICLR 2025，欢迎在会场找到我们的团队成员，与我们一起深入探讨对 AI 搜索的研究洞见。