调用阿里通义千问大语言模型API-小白新手教程-python
1.文本切片
在构建知识库的过程中,文本切片是一项关键步骤,其目的在于将大型文档分解成更小、更易于管理的单元、提升检索效率
使用LangChian库进行文本切分,实现代码如下,之后对关键代码进行详细介和API函数的参数介绍。
from langchain_community.document_loaders import UnstructuredFileLoader
旧版用法
from langchain.document_loaders import UnstructuredFileLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
导入文本
loader = UnstructuredFileLoader(“test.txt”)
将文本转成 Document 对象
data = loader.load()
print(f’documents:{len(data)}')
初始化加载器
text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=0)
切割加载的 document
split_docs = text_splitter.split_documents(data)
print(“split_docs size:”,len(split_docs))
print(split_docs)
langchain_community.document_loaders
官网文档地址:https://python.langchain.com/docs/modules/data_connection/document_loaders
UnstructuredFileLoader
主要用于加载文件中未结构化的文本,用于对未处理的文件进行一些预处理编码识别,格式规范化等,确保文本数据识别接下来的预处理,该函数可以用于读取txt文件,不能处理csv格式文件 csv格式文件请使用langchain_community.document_loaders.csv_loader
加载
加载文档做处理文档的准备工作
loader = UnstructuredFileLoader(“test.txt”)
调用load发开始进行预处理的过程
data = loader.load()
langchain.text_splitter.RecursiveCharacterTextSplitter
RecursiveCharacterTextSplitter
将使用Unstr