玩转Async Chromium：高效网页内容提取与转换

sjufgwgfhoia

于 2024-10-07 05:11:10 发布

阅读量200

点赞数 2

文章标签： php 开发语言 python

本文链接：https://blog.csdn.net/sjufgwgfhoia/article/details/142734634

版权

# 玩转Async Chromium：高效网页内容提取与转换

## 引言

在现代网络应用中，自动化地从网页提取内容是一个常见的需求。本文将介绍如何使用Playwright和Langchain库中的`AsyncChromiumLoader`与`Html2TextTransformer`实现这一目标。我们将展示如何利用异步Chromium实例加载网页，并将内容转换为更可读的文本格式。

## 主要内容

### 1. 安装和设置

首先，我们需要安装必要的库和工具。包括Playwright、BeautifulSoup、html2text等。

```bash
%pip install --upgrade --quiet playwright beautifulsoup4 html2text
!playwright install

如果你在使用Jupyter notebooks，你可能还需要安装并应用nest_asyncio，以便支持异步操作。

!pip install nest-asyncio
import nest_asyncio
nest_asyncio.apply()

2. 使用AsyncChromiumLoader加载网页

AsyncChromiumLoader可以帮助我们在无图形界面的情况下加载网页。以下是一个使用示例：

from langchain_community.document_loaders import AsyncChromiumLoader

urls = ["https://docs.smith.langchain.com/"]
loader = AsyncChromiumLoader(urls, user_agent="MyAppUserAgent")
# 使用API代理服务提高访问稳定性
docs = loader.load()
print(docs[0].page_content[0:100])

3. 使用Html2TextTransformer转换内容

加载网页后，我们可以使用Html2TextTransformer来提取文本内容，去除HTML标签和其他不必要的信息。

from langchain_community.document_transformers import Html2TextTransformer

html2text = Html2TextTransformer()
docs_transformed = html2text.transform_documents(docs)
print(docs_transformed[0].page_content[0:500])

代码示例

以下是完整的代码示例，集成了加载和转换过程：

import nest_asyncio
nest_asyncio.apply()

from langchain_community.document_loaders import AsyncChromiumLoader
from langchain_community.document_transformers import Html2TextTransformer

urls = ["https://docs.smith.langchain.com/"]
loader = AsyncChromiumLoader(urls, user_agent="MyAppUserAgent")
# 使用API代理服务提高访问稳定性
docs = loader.load()

html2text = Html2TextTransformer()
docs_transformed = html2text.transform_documents(docs)

print(docs_transformed[0].page_content[0:500])