精读《利用 GPT 解读 PDF》

局外人一枚

于 2023-04-23 15:44:54 发布

阅读量2.1k

点赞数

分类专栏： ChatGPT 文章标签： gpt pdf 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42814075/article/details/130323193

版权

文章介绍了如何使用LangChain和GPT技术来解析PDF文件，通过问答方式提取内容摘要。首先，PDF内容被拆分成小块并进行向量化，然后利用向量数据库和相似度计算找到相关文本片段。当用户提问时，系统通过向量匹配找到最相关的文本，再由GPT进行总结和回答，从而避免了直接使用GPT可能导致的Token限制和高成本问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

hatPDF 最近比较火，上传 PDF 文件后，即可通过问答的方式让他帮你总结内容，比如让它帮你概括核心观点、询问问题，或者做观点判断。

背后用到了几个比较时髦的技术，还好有 ChatGPT for YOUR OWN PDF files with LangChain 解释了背后的原理，我觉得非常精彩，因此记录下来并做一些思考，希望可以帮到大家。

技术思路概括

由于 GPT 非常强大，只要你把 PDF 文章内容发给他，他就可以解答你对于该文章的任何问题了。-- 全文完。

等等，那么为什么要提到 langChain 与 vector dataBase？因为 PDF 文章内容太长了，直接传给 GPT 很容易超出 Token 限制，就算他允许无限制的 Token 传输，可能一个问题可能需要花费 10~100 美元，这个成本也是不可接受的。

因此黑魔法来了，下图截取自视频 ChatGPT for YOUR OWN PDF files with LangChain：
在这里插入图片描述
我们一步步解读：

找一些库把 PDF 内容文本提取出来。
把这些文本拆分成 N 份更小的文本，用 openai 进行文本向量化。
当用户提问时，对用户提问进行向量化，并用数学函数计算与 PDF 已向量化内容的相似程度。
把最相似的文本发送给 openai，让他总结并回答你的问题。

利用 GPT 解读 PDF 的实现步骤
我把视频里每一步操作重新介绍一遍，并补上自己的理解。

登录 colab

你可以在本地电脑运行 python 一步步执行，也可以直接登录 colab 这个 python 运行平台，它提供了很方便的 python 环境，并且可以一步步执行代码并保存，非常适合做研究。

只要你有谷歌账号就可以使用 colab。

安装依赖

要运行一堆 gpt 相关函数，需要安装一些包，虽然本质上都是不断给 gpt openapi 发 http 请求，但封装后确实会语

最低0.47元/天解锁文章

局外人一枚

博客等级

码龄7年

126
原创

154
点赞

620
收藏

506
粉丝

关注

私信

热门文章

分类专栏

ChatGPT 27篇
python 46篇
面试题 2篇
黑科技
大数据学习 1篇
毕设项目系列 3篇
设计模式 1篇
java 34篇
spark 2篇
hbase 2篇
phoenix 4篇
linux 1篇
cdh 3篇

最新评论

14年的面试官经验分享，看完必有收获
阿J~: 最近我也在学习写博客,有空来看看我呀，一起互相学习。期待你的关注与支持
精读《利用 GPT 解读 PDF》
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/615306161?utmsource=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utmsource=blogger_star_comment。
今天女神节，用python画个贺卡送给母亲吧
帝极: 求源码
Chat GPT太强，多种玩法曝光
阿福爱学习: 有点水啊，友仔
关于 GPT 的 10 个认知
yangtuomao: 他本质还是自然语义分析吧，是对已有信息的归纳总结，但是他不具备判断正误的能力。具体来看就是问他一些高等代数问题，比如群上模运算，这种较为复杂的计算一般网上没人给出计算结果。如果让他给计算过程，他是真的“照葫芦画瓢” ，一本正经的胡说八道。所以说实话他这玩意level还是有点低，对普通用户确实够用，科研的基础查询也还行，再高级一点的，问他那种“百度都不太知道答案”的问题（其实前沿领域非常多），他真的会很扯淡。

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

局外人一枚 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。