Jina Reader：一键将网页内容转为适合 LLM 处理的文本格式，自动抓取和清洗网页内容，支持多种输出格式

最新推荐文章于 2025-03-15 18:37:06 发布

蚝油菜花

最新推荐文章于 2025-03-15 18:37:06 发布

阅读量1.8k

点赞数 13

分类专栏：每日 AI 项目与应用实例文章标签： jina 人工智能开源

本文链接：https://blog.csdn.net/qq_19841021/article/details/144919992

版权

659 篇文章

订阅专栏

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

公众号: 蚝油菜花 - reader

Jina Reader 是 Jina AI 推出的开源工具，旨在将互联网上的 HTML 网页内容转换为适合大型语言模型（LLMs）处理的纯文本格式。用户只需在网址前添加特定前缀，即可快速提取网页的主要内容，并用结构化文本形式输出，去除不必要的 HTML 标签和脚本。

该工具支持多种内容格式，包括 Markdown、HTML、Text 等，并具备流模式、JSON 模式和自动为图片生成描述的 Alt 生成模式，能够增强 LLMs 对网页内容的理解。

网页抓取与解析：使用网络爬虫技术抓取网页内容，基于 HTML 解析器解析网页的 DOM 树结构，提取出网页的文本内容。
内容清洗与结构化：清洗 HTML 标签、JavaScript 代码和 CSS 样式，只保留纯文本内容，并识别和提取网页中的标题、段落、链接、图片等结构化元素。
自然语言处理（NLP）：对提取的文本进行自然语言处理，提高文本的质量，例如去除停用词、词干提取等，并生成图像的替代文本（alt text）。
动态内容处理：对于单页应用程序（SPA）和动态加载的内容，使用如 Puppeteer 这样的无头浏览器模拟用户交互，等待 JavaScript 执行完成，捕获最终的页面内容。
流式处理与实时解析：支持流式解析网页内容，对于大型和动态网页尤为重要，能实时处理网页内容。

只需在目标 URL 前添加 https://r.jina.ai/ 前缀即可。例如，提取维基百科关于人工智能的页面内容：

curl https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence

在搜索查询前添加 https://s.jina.ai/ 前缀。例如，搜索“2024 年美国总统大选谁会赢？”：

curl https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F

对于动态加载的网页，可以使用流模式确保内容的完整性：

curl -H "Accept: text/event-stream" https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page

🥦 微信公众号｜搜一搜：蚝油菜花 🥦