前言
最近我有幸获得了 Gemini 1.5 Pro 的内测资格,想在这里分享一下我的使用体验。这篇文章并非旨在横向比较各家模型的优劣,也不是探讨 Gemini 的迭代历程。因此,我不会过多关注哪些功能是上一代模型已经实现的,或者哪些是完全新推出的功能。我只想展望一下可预见的未来,探讨大模型能够帮助我们完成哪些事情,以及它能为我们的生活带来哪些即时的益处。
模型介绍
Gemini 1.5 Pro 是一款强大的多模态模型,支持以下输入类型:
- 文字
- 图片
- 视频(包含音频)
- 文件
- 文件夹
目前,模型的输出仅限于文字。由此可见,Gemini 1.5 Pro 更侧重于内容理解和整合。
导入文件
目前,导入文件功能仅支持读取文档中的文字,不支持处理其中图片。即使文件中包括图片,模型的回答也完全基于图片的标题和说明。我观察到这一点,是因为我选择的一张图片附带的说明是图中数据的来源,而不是图片想要表达的信息。这让我疑惑:为什么在文件中处理图片存在难点?我设想了一种解决方案:先扫描一遍页面的内容,区分文字和图片区域,分别调用 OCR 模块和图片处理接口进行处理。我计划有机会找大牛探讨一下这个问题。
目前,导入文件的最大输入限制是 1M 个 token。我上传过一个从网上找到的关于美国历史的 PDF 文档,该文档共 948 页,模型处理了大约 10 分钟。模型只需要在上传文档时进行一次处理,之后就可以自由地问询文档内容,而无需每次都经历漫长的等待。最终,模型将文档切分成了 0.6M