5款可用于LLMs的爬虫工具/方案

文浩Marvin

已于 2024-05-12 15:16:04 修改

阅读量2.5k

点赞数 45

文章标签：爬虫

于 2024-05-12 15:14:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fwh66/article/details/138756404

版权

5款可用于LLMs的爬虫工具/方案

Crawl4AI
功能: 提取语义标记的数据块为JSON格式，提供干净的HTML和Markdown文件。
用途: 适用于RAG（检索增强生成）、微调以及AI聊天机器人的开发。
特点: 高效数据提取，支持LLM格式，多URL支持，易于集成和Docker容器化。
GitHub: https://github.com/unclecode/crawl4ai
FireCrawl
功能: 抓取网站的所有可访问子页面，并转换内容为干净的Markdown格式。
特点: 适用于JavaScript动态生成的内容网站，提供易用的API。
GitHub: https://github.com/mendableai/firecrawl
Scrapegraph-ai
功能: 使用LLM和直接图形逻辑创建网站和本地文档的抓取流程。
特点: 自动执行数据抓取任务，用户只需指定信息类型。
GitHub: https://github.com/VinciGit00/Scrapegraph-ai
Markdowner
功能: 将网站快速转换为Markdown数据。
特点: 支持自动爬虫、详细模式、JavaScript网站等，易于扩展和自托管。
GitHub: https://github.com/dhravya/markdowner
Jina Reader
功能：将任何URL转化为LLM所需的Markdown格式
特点：可以针对这些内容集成不同的模型，支持API
GitHub：https://github.com/jina-ai/reader

关注

45
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

文浩Marvin CSDN认证博客专家 CSDN认证企业博客

码龄13年

78: 原创

11万+: 周排名

3万+: 总排名

6万+: 访问

: 等级

1627: 积分

554: 粉丝

615: 获赞

6: 评论

500: 收藏

私信

关注

热门文章

分类专栏

AIGC 52篇
科技 27篇
科技资讯 27篇
AIGC日报 3篇
AIGC日报
java面试 2篇
Spring 1篇

最新评论

彻底改变人工智能：OpenAI 推出 GPT-4o，未来的多模式聊天机器人
普通网友: 优质好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
5款可用于LLMs的爬虫工具/方案
普通网友: 这篇文章是优质之作，内容充实，结构明晰，语言流畅且通俗易懂，适合广大读者阅读。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
一款AI工作流项目：phidatahq/phidata
普通网友: 文章内容通俗易懂，适合不同层次的读者。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Meditron：基于 Llama 完全开源的医学大语言模型
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
一觉醒来 AI科技界发生的大小事儿 04月19日
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

2024

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

文浩Marvin 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。