大模型Gemini 1.5 Pro之我的体验

前言

最近我有幸获得了 Gemini 1.5 Pro 的内测资格,想在这里分享一下我的使用体验。这篇文章并非旨在横向比较各家模型的优劣,也不是探讨 Gemini 的迭代历程。因此,我不会过多关注哪些功能是上一代模型已经实现的,或者哪些是完全新推出的功能。我只想展望一下可预见的未来,探讨大模型能够帮助我们完成哪些事情,以及它能为我们的生活带来哪些即时的益处。

模型介绍

Gemini 1.5 Pro 是一款强大的多模态模型,支持以下输入类型:

  • 文字
  • 图片
  • 视频(包含音频)
  • 文件
  • 文件夹

目前,模型的输出仅限于文字。由此可见,Gemini 1.5 Pro 更侧重于内容理解和整合。

导入文件

目前,导入文件功能仅支持读取文档中的文字,不支持处理其中图片。即使文件中包括图片,模型的回答也完全基于图片的标题和说明。我观察到这一点,是因为我选择的一张图片附带的说明是图中数据的来源,而不是图片想要表达的信息。这让我疑惑:为什么在文件中处理图片存在难点?我设想了一种解决方案:先扫描一遍页面的内容,区分文字和图片区域,分别调用 OCR 模块和图片处理接口进行处理。我计划有机会找大牛探讨一下这个问题。

目前,导入文件的最大输入限制是 1M 个 token。我上传过一个从网上找到的关于美国历史的 PDF 文档,该文档共 948 页,模型处理了大约 10 分钟。模型只需要在上传文档时进行一次处理,之后就可以自由地问询文档内容,而无需每次都经历漫长的等待。最终,模型将文档切分成了 0.6M

  • 21
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值