用 LangChain 构建基于资料库的问答机器人（二）：从资料源中提取文本信息

Jambo Chen

已于 2023-07-23 22:29:24 修改

阅读量1.2k

点赞数

分类专栏：用 LangChain 构建基于资料库的问答机器人文章标签： langchain gpt-3 chatgpt

于 2023-07-18 07:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenjambo/article/details/131771078

版权

本文是学生大使Jambo分享的构建问答机器人的系列教程，重点讲解如何利用LangChain从PDF等多样化的资料源提取文本信息。通过引入Python的第三方库，如PDF阅读器，以及LangChain提供的文本分割工具，实现对PDF文件的有效处理和文本分割，确保问答机器人的输入文本适配性。更多内容包括Word、HTML、PPT等格式的处理，建议查阅官方文档深入学习。

摘要由CSDN通过智能技术生成

大家好，我是学生大使 Jambo。这个系列的目标是做出一个根据资料回答问题的机器人，那么从资料源中提取文本信息就是一件必要的事。但我们的资料源格式是多样的，比如 PDF、Word、HTML、PPT 等等，甚至有的资料源来自于网络，这些格式都不能直接提取出文本，但好在 Python 有很多第三方库可以帮助我们提取文本信息，并且 LangChain 也帮我们整合到了一起，我们只需要调用 LangChain 的接口就可以了。

我在公开网络上找到了一份 PDF 格式的合同，我们就以这份合同为例，介绍一下如何提取文本信息。

文本提取

LangChain 针对 PDF 包含了许多第三方库，比如 PyPDF2、PyPDFium2、PDFMiner 等等，这里我们以 PyPDF2 为例，介绍一下如何提取文本信息。

pip install pypdf

我们使用 PyPDFLoader 来加载 PDF 文件，然后调用 load 方法就可以得到文本信息了。PDF 的读取器会将 PDF 文件中的每一页转换成一段文本，然后将这些文本段组成一个列表返回。

from langchain.document_loaders import PyPDFLoade

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
用 LangChain 构建基于资料库的问答机器人（二）：从资料源中提取文本信息

大家好，我是学生大使 Jambo。这个系列的目标是做出一个根据资料回答问题的机器人，那么从资料源中提取文本信息就是一件必要的事。但我们的资料源格式是多样的，比如 PDF、Word、HTML、PPT 等等，甚至有的资料源来自于网络，这些格式都不能直接提取出文本，但好在 Python 有很多第三方库可以帮助我们提取文本信息，并且 LangChain 也帮我们整合到了一起，我们只需要调用 LangChain 的接口就可以了。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。