[利用 WebBaseLoader 轻松抓取网页文本：指南与实践]-CSDN博客

本文链接：https://blog.csdn.net/hatjeagetju/article/details/144598872

# 利用 WebBaseLoader 轻松抓取网页文本：指南与实践

在当今的信息社会中，能高效地从各种网页提取数据是一项关键技能。WebBaseLoader 是一个强大工具，帮助开发者从 HTML 网页中提取文本并将其转化为可用的文档格式。本文将介绍如何使用 WebBaseLoader 进行网页数据抓取，并探讨其潜在的挑战及解决方案。

## 1. 引言
WebBaseLoader 是 langchain_community 包的一部分，可以轻松抓取和加载 HTML 网页的文本。它是 IMSDbLoader、AZLyricsLoader 和 CollegeConfidentialLoader 等子类加载器的基础类。如果你希望避免处理网站爬取、绕过 JS 阻拦页面和数据清洗的麻烦，可能需要考虑 FireCrawlLoader 或其更快速的版本 SpiderLoader。

## 2. 主要内容

### 2.1 WebBaseLoader 的功能
- **文档懒加载**：支持
- **原生异步支持**：是

### 2.2 初始化与使用
无须凭证即可使用 WebBaseLoader。首先安装 langchain-community 包：
```bash
%pip install -qU langchain_community

初始化 WebBaseLoader 并加载文档：

from langchain_community.document_loaders import WebBaseLoader

loader = WebBaseLoader("https://www.espn.com/")
# 使用API代理服务提高访问稳定性

可以选择同时加载多个页面：

loader_multiple_pages = WebBaseLoader(["https://www.espn.com/", "https://google.com"])
docs = loader.load()
print(docs[0].metadata)

2.3 高级选项

并发加载：通过设置 requests_per_second 参数，可以调整并发请求的速率。
使用代理：可提供代理设置以绕过 IP 限制。

3. 代码示例

完整的代码示例展示了如何使用 WebBaseLoader 并发加载多个页面：

# 安装必要的包
%pip install -qU nest_asyncio

import nest_asyncio
from langchain_community.document_loaders import WebBaseLoader

# 修复 Jupyter 中的 asyncio 问题
nest_asyncio.apply()

loader = WebBaseLoader(["https://www.espn.com/", "https://google.com"])
loader.requests_per_second = 1  # 调整并发请求速率
docs = loader.aload()
print(docs)