(17-3-03)检索增强生成(RAG):分割编程语言代码+Markdown文本分割器

5.3.5  分割编程语言代码

在LangChain中,可以使用CharacterTextSplitter分割不同编程语言的代码片段。通过下面的的代码,可以打印输出目前所支持的编程语言。

from langchain_text_splitters import Language, RecursiveCharacterTextSplitter

# 支持的所有编程语言列表

print([e.value for e in Language])

执行后会输出:

['cpp', 'go', 'java', 'kotlin', 'js', 'ts', 'php', 'proto', 'python', 'rst', 'ruby', 'rust', 'scala', 'swift', 'markdown', 'latex', 'html', 'sol', 'csharp', 'cobol', 'c', 'lua', 'perl']

在使用RecursiveCharacterTextSplitter分割程序代码时,首先需要通过Language枚举设置编程语言的类型,然后将一个代码片段传递给分割器,分割器根据预定义的代码分隔符将程序代码分割成块。例如分割Python代码的流程如下所示。

(1)使用RecursiveCharacterTextSplitter,将变成语言设置为Language.PYTHON。

(2)将一个Python代码片段传递给分割器。

(3)分割器根据预定义的Python代码分隔符将Python代码分割成块。

请看下面的实例,演示了使用CharacterTextSplitter分割Python代码片段的过程。

实例5-1使用CharacterTextSplitter分割Python代码片段(源码路径:codes\5\fen07.py

实例文件fen07.py的具体实现代码如下所示。

from langchain_text_splitters import Language, RecursiveCharacterTextSplitter

# 定义Python代码文本
python_code = """
def hello_world():
    print("Hello, World!")

# Call the function
hello_world()
"""

# 使用CharacterTextSplitter创建Python文本分割器实例
python_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.PYTHON, chunk_size=50, chunk_overlap=0
)

# 分割Python代码文本
python_docs = python_splitter.create_documents([python_code])

# 打印分割后的文档
for doc in python_docs:
    print(doc.page_content)

上述代码的实现流程如下所示:

(1)定义Python代码文本:使用三重引号创建一个包含Python代码的字符串 python_code,定义了一个名为 hello_world 的函数,该函数会打印输出"Hello, World!"。

(1)创建Python文本分割器:使用 RecursiveCharacterTextSplitter.from_language()方法创建了一个针对Python语言的文本分割器实例 python_splitter,设置了参数 language=Language.PYTHON,表示要处理的是Python代码。

(1)分割Python代码文本:使用 python_splitter.create_documents()方法对Python代码文本进行分割,生成了一个文档列表 python_docs,每个文档包含了分割后的部分Python代码。

(4)打印输出分割后的文档:使用 for 循环遍历文档列表 python_docs,并打印每个文档的内容。在这个例子中只有一个文档,所以它只打印了整个Python代码文本。执行后会输出:

def hello_world():
    print("Hello, World!")
# Call the function
hello_world()

5.3.6  Markdown文本分割器

在LangChain中,MarkdownHeaderTextSplitter用于根据指定的标头分割Markdown文档中的文本,它可以帮助用户将Markdown文档按照标题层级进行划分。用户可以选择是否保留被划分的标题内容,将文档传递给MarkdownHeaderTextSplitter实例的split_text()方法,即可获得按照指定标题层级划分后的文档列表。

使用MarkdownHeaderTextSplitter分割Markdown文档的基本流程如下所示。

(1)设置分割的标头:使用参数headers_to_split_on设置要分割的标头列表,每个标头由元组 (标头符号, 标头名称) 表示。在示例中,标头包括 #、## 和 ###,分别表示一级标题、二级标题和三级标题。

(2)创建MarkdownHeaderTextSplitter实例:使用指定的标头列表创建 MarkdownHeaderTextSplitter 的实例 markdown_splitter。

(3)分割Markdown文档:使用 markdown_splitter.split_text() 方法对Markdown文档进行分割,得到一个包含分割后内容和元数据的文档列表 md_header_splits。每个文档包含了分割后的部分Markdown文本,以及其所属的标头元数据。

(4)可选的内容处理:在默认情况下,MarkdownHeaderTextSplitter会从输出的文本块中去除被分割的标头内容。但可以通过设置 strip_headers=False 来禁用此功能。

(5)对每个Markdown组应用其他文本分割器:可以对每个Markdown组应用任何其他文本分割器,例如使用RecursiveCharacterTextSplitter 对每个Markdown组进行进一步的字符级分割。

假设现在有一个文件README.md,内容如下所示。

# drone_path_planning
A path planning and trajectory generation  ROS package  for collaborating drones flying into formations in 3D space .Obstacle avoidance and Minimum Snap Trajectories
!AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

请看下面的代码,演示了使用MarkdownHeaderTextSplitter分割文件README.md的过程。

实例5-1使用MarkdownHeaderTextSplitter分割文件README.md(源码路径:codes\5\fen08.py

实例文件fen08.py的具体实现代码如下所示。

from langchain_text_splitters import MarkdownHeaderTextSplitter

# 读取README.md文件内容
with open("README.md", "r", encoding="utf-8") as file:
    readme_content = file.read()

# 指定要分割的标题级别
headers_to_split_on = [
    ("#", "Header 1"),
    ("##", "Header 2"),
    ("###", "Header 3"),
]

# 创建MarkdownHeaderTextSplitter实例
markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on)

# 分割Markdown文档
md_header_splits = markdown_splitter.split_text(readme_content)

# 打印分割结果
for chunk in md_header_splits:
    print(chunk)

在上述代码中,首先使用open()函数读取README.md文件的内容,然后创建了一个MarkdownHeaderTextSplitter实例,并使用split_text()方法对README.md文件进行分割。最后,打印输出了分割后的结果,在每个结果中包含了分割后的内容以及相应的元数据。执行后会输出:

page_content='A path planning and trajectory generation  ROS package  for collaborating drones flying into formations in 3D space .Obstacle avoidance and Minimum Snap Trajectories\n!AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA' metadata={'Header 1': 'drone_path_planning'}

未完待续

  • 7
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码农三叔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值