【AI】Jina Reader 将URL内容转为Markdown的工具

最新推荐文章于 2025-03-30 10:08:40 发布

SimonLiu009

最新推荐文章于 2025-03-30 10:08:40 发布

阅读量1.3k

点赞数 9

分类专栏： AI 文章标签：人工智能 jina

本文链接：https://blog.csdn.net/toopoo/article/details/144457920

版权

AI 专栏收录该内容

7 篇文章

订阅专栏

Jina AI 是一个专注于非结构化数据处理的开源神经搜索框架，它提供了一套完整的工具和框架来简化搜索引擎和推荐系统等应用程序的开发。
Jina 支持视频、图像、文本等多种类型的数据，并允许快速索引和查询。Jina 的核心理念是实现模块化和可插拔式的搜索系统，使得开发者可以专注于业务逻辑而不必从头开始构建底层搜索功能。

Jina Reader

Jina Reader 是 Jina AI 提供的一个 API，它能够将任何 URL 转换为适合大型语言模型（LLM）的标记符格式，优化 LLM 的输出结果，提高性能和资源效率。Jina Reader 使用无头浏览器获取 HTML，然后使用 Mozilla 的可读性软件包等工具来提取网页的主要内容，并使用 regex 和 Turndown 库将清理后的 HTML 转换为 markdown。这个工具解决了 LLM 与网络信息接地时遇到的常见挑战，为提取和处理在线内容提供了一种高效的简洁解决方案。

使用Jina Reader读取URL

使用Jina Reader的第一种使用方法，就是读取 URL，将网址前面加上：https://r.jina.ai/，例如https://r.jina.ai/https://r.jina.ai/https://blog.csdn.net/toopoo/article/details/88234293
然后使用浏览器访问或者命令行使用curl等方式访问这个拼接后新网址，浏览器访问后页面如下：
在这里插入图片描述
或者

curl https://r.jina.ai/https://r.jina.ai/https://blog.csdn.net/toopoo/article/details/88234293

使用Jina Reader搜索

Jina 浏览器Web搜索应该已经关闭了，可以使用curl实现(星号要替换为你的key，请自行到Jina官网获取）：
curl https://s.jina.ai/When%20was%20Jina%20AI%20founded? \ -H "Authorization: Bearer jina_******************" \ -H "X-Retain-Images: none"
搜索结果更适合LLM处理而不是人类阅读。

Jina API一览

在这里插入图片描述

Jina的其它工具

Jina Python库

pip install Jina
Jina Python库是一款开源的神经搜索库，它利用深度学习技术为各种数据类型提供高效的搜索解决方案。它特别适用于处理非结构化数据，如文本、图片、音频和视频等。

Jina的核心概念包括Flow、Executor和Document等。其中，Flow是Jina的核心组件，负责管理工作流程的各个阶段；Executor是一个可插拔的神经网络处理单元，它执行特定的预处理、处理或后处理任务；Document则是Jina处理的基本单元，代表了各种数据形式。

Jina的设计目标是简化跨多语言、多框架的深度学习应用开发，通过独立的执行单元和灵活的流式架构，让开发者可以轻松地构建和部署大规模的神经搜索应用。

Reader-LM

Jina Reader-LM 是 Jina AI 发布的两个小型语言模型：Reader-LM-0.5B 和 Reader-LM-1.5B。这些模型经过专门训练，可以将原始 HTML 转换为标记符，并且都是多语言模型，支持多达 256K 字节的上下文长度。Reader-LM 系列旨在高效地应对将开放网络中原始、嘈杂的 HTML 转换为干净的标记符格式的挑战，重点关注成本效益和性能。这些模型在 HTML 到标记符的转换这一特定任务中的表现优于许多大型模型，而体积却只有它们的几分之一。Reader-LM 专为个人和企业环境的实际应用而设计，使用 Google Colab 可以轻松测试模型，而生产环境则可以利用 Azure 和 AWS 等平台。这些模型非常适合在生产环境中自动从开放网络中提取和清理数据，通过将原始 HTML 转换为简洁的标记符，Reader-LM 实现了高效的数据处理，使下游 LLM 更容易从网络内容中总结、推理和生成见解。