前言
我们在日常工作和学习中经常会遇到各种各样的PDF文档。有时候,我们可能需要检索某个特定的信息,或者需要全面理解整篇文档的内容。然而有了新的ChatPDF功能,只需将PDF文档上传,它就能够帮助我们提取关键信息、回答问题,甚至进行摘要总结。
比如我想让GPT帮我阅读一篇英语文献,只需将pdf上传到网站,GPT机器人就会解析处理 ↓↓
技术内幕
不管GPT3.5还是GPT4,对于输入长度都有限制,直接将一篇超长的PDF扔给GPT肯定是不行的。那么如何才能突破GPT输入长度的限制呢?
答案就是: Embeddings
什么是Embeddings?我们让GPT4回答一下
通俗来说就是把“物体”转成数字向量的一种技术。可是这和GPT输入长度的限制又有什么关系?
这里需要引入一个算法:余弦相似度算法
还是让GPT4来解释一下“什么是余弦相似度算法,如何利用余弦相似度算法实现向量对比 ”
我们先根据PDF的每一页进行切割分块(也可以按照句子,段落分割,分割粒度越细,GPT回答越准确),然后利用embeddings将PDF的分块和提出的问题转成向量。
接着利用余弦相似度算法,将问题的向量和每一个分块的向量进行对比,对比后我们会得到每个分块的相似度,找出相似度最高的一块或者多块,然后投喂给GPT。这样就可以突破GPT长度限制了。
关注喵之物语公众号,点击开始聊天,体验ChatPDF吧!