ChatGPT技术内幕 | ChatPDF

前言

我们在日常工作和学习中经常会遇到各种各样的PDF文档。有时候,我们可能需要检索某个特定的信息,或者需要全面理解整篇文档的内容。然而有了新的ChatPDF功能,只需将PDF文档上传,它就能够帮助我们提取关键信息、回答问题,甚至进行摘要总结。

比如我想让GPT帮我阅读一篇英语文献,只需将pdf上传到网站,GPT机器人就会解析处理 ↓↓

技术内幕

不管GPT3.5还是GPT4,对于输入长度都有限制,直接将一篇超长的PDF扔给GPT肯定是不行的。那么如何才能突破GPT输入长度的限制呢?

答案就是: Embeddings

什么是Embeddings?我们让GPT4回答一下

通俗来说就是把“物体”转成数字向量的一种技术。可是这和GPT输入长度的限制又有什么关系?

这里需要引入一个算法:余弦相似度算法

还是让GPT4来解释一下“什么是余弦相似度算法,如何利用余弦相似度算法实现向量对比 ”

我们先根据PDF的每一页进行切割分块(也可以按照句子,段落分割,分割粒度越细,GPT回答越准确),然后利用embeddings将PDF的分块和提出的问题转成向量。

接着利用余弦相似度算法,将问题的向量和每一个分块的向量进行对比,对比后我们会得到每个分块的相似度,找出相似度最高的一块或者多块,然后投喂给GPT。这样就可以突破GPT长度限制了。

关注喵之物语公众号,点击开始聊天,体验ChatPDF吧!

喵之物语 - 探索AI的无限可能

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值