巧用HTMLSectionSplitter拆分文档：深入理解与应用-CSDN博客

本文链接：https://blog.csdn.net/afTFODguAKBF/article/details/142536522

引言

在现代Web开发中，处理HTML文档的需求越来越普遍，尤其是在需要提取信息或分析文本内容时。HTMLSectionSplitter是一款强大的工具，它能够在HTML元素级别拆分文本，并为每个区块添加相应的元数据。本文将介绍如何使用HTMLSectionSplitter高效地拆分HTML文档，并结合其他技术如RecursiveCharacterTextSplitter实现更细粒度的控制。

主要内容

HTMLSectionSplitter的概念

HTMLSectionSplitter可以根据指定的HTML标签将文本分块。它能处理复杂的HTML结构，并保留文档的语义信息。例如，可以根据h1, h2等标签将文本分成不同部分，以便后续处理。

配置与使用

要分割HTML字符串，你需要提供一个标明分割依据的标签列表。HTMLSectionSplitter支持通过XSLT转换来识别特定的HTML结构，使得分割过程更加灵活。

示例代码

以下是一个简单的代码示例，演示如何使用HTMLSectionSplitter：

from langchain_text_splitters import HTMLSectionSplitter

html_string = """
    <!DOCTYPE html>
    <html>
    <body>
        <div>
            <h1>Foo</h1>
            <p>Some intro text about Foo.</p>
            <div>
                <h2>Bar main section</h2>
                <p>Some intro text about Bar.</p>
                <h3>Bar subsection 1</h3>
                <p>Some text about the first subtopic of Bar.</p>
                <h3>Bar subsection 2</h3>
                <p>Some text about the second subtopic of Bar.</p>
            </div>
            <div>
                <h2>Baz</h2>
                <p>Some text about Baz</p>
            </div>
            <br>
            <p>Some concluding text about Foo</p>
        </div>
    </body>
    </html>
"""

headers_to_split_on = [("h1", "Header 1"), ("h2", "Header 2")]

html_splitter = HTMLSectionSplitter(headers_to_split_on)
html_header_splits = html_splitter.split_text(html_string)

# 打印结果
for document in html_header_splits:
    print(document.page_content)
    print(document.metadata)

结合其他文本分割器

HTMLSectionSplitter不仅可以单独使用，还可以结合其他文本分割器如RecursiveCharacterTextSplitter，以便在得到合适大小的文本块时更加灵活。

from langchain_text_splitters import RecursiveCharacterTextSplitter

chunk_size = 500
chunk_overlap = 30
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size, chunk_overlap=chunk_overlap
)

# 继续分块
splits = text_splitter.split_documents(html_header_splits)

# 打印结果
for document in splits:
    print(document.page_content)
    print(document.metadata)