Langchain 对pdf,word,txt等不同文件的加载解析

项目中遇到各种数据资源想要加载近langchain构建本地知识ai系统,怎么加载对应的文件格式呢,一起研究下

引入Langchain

from langchain.document_loaders import UnstructuredWordDocumentLoader,PyPDFium2Loader,DirectoryLoader,PyPDFLoader,TextLoader
import os

pdf文件加载

def load_pdf(directory_path):
    data = []
    for filename in os.listdir(directory_path):
        if filename.endswith(".pdf"):
            print(filename)
            # print the file name
            loader = PyPDFium2Loader(f'{directory_path}/{filename}')
            print(loader)
            data.append(loader.load())
    return data

word文档加载如,doc或者docx格式

def load_word(directory_path):
    data = []
    for filename in os.listdir(directory_path):
        # check if the file is a doc or docx file
        # 检查所有doc以及docx后缀的文件
        if filename.endswith(".doc") or filename.endswith(".docx"):
            # langchain自带功能,加载word文档
            loader = UnstructuredWordDocumentLoader(f'{directory_path}/{filename}')
            data.append(loader.load())

    return data

txt加载

def load_txt(directory_path):
    data = []
    for filename in os.listdir(directory_path):
        if filename.endswith(".txt"):
            print(filename)
            loader = TextLoader(f'{directory_path}/{filename}')
            print(loader)
            data.append(loader.load())

    return data

上述中常见的文档格式基本上都可以加载进去了,主要就是不同格式对应不同的加载方式,如果想简单也可以直接加载目录

def load_docs(directory):
    loader = DirectoryLoader(directory)
    documents = loader.load()
    return documents
### 关于LangChain学习资料的获取 对于希望深入研究LangChain并获得PDF格式的学习材料而言,网络上存在多种途径可以探索。一方面,在线平台如CSDN提供了丰富的资源包下载机会[^1],这些资源不仅涵盖了基础入门的内容,还包括更深层次的技术探讨。 为了具体到PDF文档方面: - **在线社区和技术博客**:许多技术爱好者和个人开发者会在个人网站或知名编程论坛上传自己的学习笔记或是整理好的教程文档。这类资源往往包含了详细的解释说明以及实际操作案例分析。 - **官方文档和其他权威出版物**:虽然不一定都是免费提供,但像GitHub仓库中的README文件、项目Wiki页面或者是通过出版社发行的专业书籍都可能是非常有价值的信息源。值得注意的是,某些电子书销售平台上也会不定期推出限时折扣活动来推广新书或旧版图书。 针对想要利用Python工具处理PDF并与LangChain相结合的情况,可以从以下几个角度入手准备环境和素材: #### 准备工作 确保已经正确设置了开发环境,并安装必要的软件包以便能够顺利加载解析PDF文件。这通常涉及到几个关键步骤: 1. 安装`pymupdf`或其他适合读取PDF内容的库; 2. 使用`python-docx`转换WordPDF(如果适用); 3. 配置好与LangChain交互所需的各种API接口及其依赖项,比如OpenAI API等[^3]; ```bash pip install pymupdf python-docx langchain openai ``` 另外,考虑到敏感信息的安全管理问题,建议采用`.env`文件方式保存密钥等相关配置参数[^4]。 #### 获取PDF资料的方法 除了上述提到的一般性方法外,还可以考虑加入专门的兴趣小组或者订阅特定主题邮件列表,这样可以获得更加针对性的通知和服务推送。同时也可以关注一些知名的教育机构发布的公开课程资料,它们有时会附带高质量的教学讲义供学员参考学习。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Alex_81D

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值