[深入学习如何使用HTMLSectionSplitter轻松分割HTML内容]

qq_37836323

于 2024-10-03 19:41:43 发布

阅读量99

点赞数 2

文章标签：学习 html 服务器 python

本文链接：https://blog.csdn.net/qq_29929123/article/details/142695179

版权

引言

在处理HTML内容时，能够按照结构化的方式分割文本是非常重要的。HTMLSectionSplitter是一种“结构感知”的分割工具，能够基于HTML标签将文本进行分割，并为每个分块添加元数据。这篇文章将介绍如何使用HTMLSectionSplitter，以及如何通过结合其他工具来优化文本分割。

主要内容

HTMLSectionSplitter的基本用法

HTMLSectionSplitter可以在元素级别进行分割，并根据相同的元数据合并元素。这样做的目的是：

保持相关文本的语义分组
保留文档结构中编码的上下文丰富的信息

如何分割HTML字符串

你可以通过指定要分割的HTML标题标签来使用HTMLSectionSplitter：

from langchain_text_splitters import HTMLSectionSplitter

html_string = """
    <!DOCTYPE html>
    <html>
    <body>
        <div>
            <h1>Foo</h1>
            <p>Some intro text about Foo.</p>
            <div>
                <h2>Bar main section</h2>
                <p>Some intro text about Bar.</p>
                <h3>Bar subsection 1</h3>
                <p>Some text about the first subtopic of Bar.</p>
                <h3>Bar subsection 2</h3>
                <p>Some text about the second subtopic of Bar.</p>
            </div>
            <div>
                <h2>Baz</h2>
                <p>Some text about Baz</p>
            </div>
            <br>
            <p>Some concluding text about Foo</p>
        </div>
    </body>
    </html>
"""

headers_to_split_on = [("h1", "Header 1"), ("h2", "Header 2")]

html_splitter = HTMLSectionSplitter(headers_to_split_on)
html_header_splits = html_splitter.split_text(html_string)
print(html_header_splits)

结合其他分割工具来优化分块

HTMLSectionSplitter可以与其他文本分割工具一起使用。如当部分大小超过指定的块大小时，可以使用RecursiveCharacterTextSplitter进行二次分割。

from langchain_text_splitters import RecursiveCharacterTextSplitter

chunk_size = 500
chunk_overlap = 30
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size, chunk_overlap=chunk_overlap
)

splits = text_splitter.split_documents(html_header_splits)
print(splits)