ReaderLM v2:HTML 转 Markdown 和 JSON 的前沿小型语言模型

94c49575a6c185d93fc827f39d2dfd76.gif

2024 年 4 月,我们发布了 Jina Reader(https://jina.ai/reader),这是一个非常实用的 API,用户只需在 URL 前添加 r.jina.ai 前缀,就能将任何网页转换为大模型友好的 Markdown。紧接着,在同年 9 月,我们又发布了两款专门用于将原始 HTML 转换为干净 Markdown 的小型语言模型: reader-lm-0.5breader-lm-1.5b

今天,我们正式推出 ReaderLM 的第二代模型 —— ReaderLM-v2! 这是一款拥有 15 亿参数的小型语言模型,它不仅可以将原始 HTML 精确地转换为格式美观的 Markdown,还能直接生成 JSON 数据。

相较于前代,它的准确性更高,在处理长文本方面表现更出色,支持高达 512K tokens 的输入输出组合长度。 并支持 29 种语言,包括中文、英语、日语、韩语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、越南语、泰语、阿拉伯语等。

  • 🔗 官网链接: https://jina.ai/models/ReaderLM-v2

  • 🤗 开源模型链接:https://huggingface.co/jinaai/ReaderLM-v2

ReaderLM-v2 的显著提升得益于全新的训练范式和更高质量的训练数据。 特别是在处理长文本内容和生成 Markdown 语法方面,它远超前代。

第一代模型将 HTML 转 Markdown 视为一种“选择性复制”任务,从 HTML 中提取并复制必要的内容,而 v2 则将其视为真正的翻译过程。 这一根本性的转变使得模型能够熟练运用 Markdown 语法,轻松生成代码块、嵌套列表、表格以及 LaTeX 公式等复杂元素。

我们将 ReaderLM-v2 与 ReaderLM 1.5b、Claude 3.5 Sonnet 以及 Gemini 2.0 Flash 在处理 HackerNews 首页 HTML 转 Markdown 任务上的表现进行了对比。

结果表明,ReaderLM-v2 不仅能够完整保留原始 HTML 中的信息,包括 HackerNews 链接,并巧妙地运用 Markdown 语法构建内容结构。 它使用嵌套列表组织局部元素,如点赞数、时间戳和评论,同时通过恰当的标题层级(如 h1 和 h2 标签)来保持全局格式的一致性。

我们第一个版本的一个主要挑战,就是 生成长序列后出现的退化问题,具体表现为:模型要么开始重复相同的 token,要么陷入短序列 token 的循环,直到达到最大输出长度。

而现在,ReaderLM-v2 通过在训练过程中引入对比损失,显著缓解了这一问题,使其性能不受上下文长度或已生成 token 数量的影响,表现始终如一。

为了更深入地检验 ReaderLM-v2 的实力,我们特意选用了一个难度颇高的测试案例:将我们公司官网的法律页面(https://jina.ai/legal)转换为 Markdown 格式。这个页面的长度是 HackerNews 首页的 20 倍左右,且末尾还包含一个复杂表格。

26d3f39706f2577d56300e5eef654656.png

尽管如此,ReaderLM-v2 不负众望,成功生成了完整的 Markdown 表格,并且整篇文档中都维持了出色的结构一致性,甚至在表格之后依然保持了清晰的标题层级和列表格式。这样的表现是前一代 reader-lm-1.5b 望尘莫及的,因为长序列的生成对前代模型来说是个大挑战,很容易出现退化现象。

除了 Markdown 转换,ReaderLM-v2 还新增了 直接 HTML 转 JSON 生成的功能, 用户可以根据预定义的 JSON Schema,直接从原始 HTML 中提取所需信息。这种端到端的方法,避免了中间 Markdown 转换步骤,大大提高了数据清洗和提取的效率。

0a2d6c9da19dde64f62ce787e5aa8f73.png

我们以 HackerNews 首页的原始 HTML 为输入,并提供了一个 JSON Schema,其中定义了需要提取的字段,包括帖子标题、URL、摘要、关键词、作者和评论数等。某些字段可以直接从 HTML 代码中提取,但另一些字段(例如关键词)则需要模型从内容中进行推断。令人惊喜的是,ReaderLM-v2 成功地提取并生成了所有这些字段,展现出令人印象深刻的准确性。

在定量和定性基准测试中,ReaderLM-v2 在 HTML 转 Markdown 任务上的表现优于 Qwen2.5-32B-InstructGemini2-flash-exprGPT-4o-2024-08-06 等更大的模型,同时在 HTML 转 JSON 提取任务上展现出相当的性能,而且使用的参数量明显更少。

outside_default.png

ReaderLM-v2-pro 是专为企业客户提供的高级版本,经过了额外的训练和优化。

outside_default.png outside_default.png outside_default.png

我们的人工评估涵盖了 10 个不同的 HTML 来源,包括英文、日文和中文的新闻文章、博客文章、产品着陆页、电子商务网站以及法律文档。测试材料包含了多行表格、动态布局、链接表格、数学公式(包括行内和显示公式)、代码块以及深度嵌套列表等具有挑战性的元素。定性评估主要关注三个关键维度,模型的评分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值