大模型Gemini 1.5 Pro之我的体验

最新推荐文章于 2024-04-10 18:34:49 发布

野营者007

最新推荐文章于 2024-04-10 18:34:49 发布

阅读量1k

点赞数 21

分类专栏：大模型文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40136685/article/details/136779643

版权

前言

最近我有幸获得了 Gemini 1.5 Pro 的内测资格，想在这里分享一下我的使用体验。这篇文章并非旨在横向比较各家模型的优劣，也不是探讨 Gemini 的迭代历程。因此，我不会过多关注哪些功能是上一代模型已经实现的，或者哪些是完全新推出的功能。我只想展望一下可预见的未来，探讨大模型能够帮助我们完成哪些事情，以及它能为我们的生活带来哪些即时的益处。

模型介绍

Gemini 1.5 Pro 是一款强大的多模态模型，支持以下输入类型：

文字
图片
视频（包含音频）
文件
文件夹

目前，模型的输出仅限于文字。由此可见，Gemini 1.5 Pro 更侧重于内容理解和整合。

导入文件

目前，导入文件功能仅支持读取文档中的文字，不支持处理其中图片。即使文件中包括图片，模型的回答也完全基于图片的标题和说明。我观察到这一点，是因为我选择的一张图片附带的说明是图中数据的来源，而不是图片想要表达的信息。这让我疑惑：为什么在文件中处理图片存在难点？我设想了一种解决方案：先扫描一遍页面的内容，区分文字和图片区域，分别调用 OCR 模块和图片处理接口进行处理。我计划有机会找大牛探讨一下这个问题。

目前，导入文件的最大输入限制是 1M 个 token。我上传过一个从网上找到的关于美国历史的 PDF 文档，该文档共 948 页，模型处理了大约 10 分钟。模型只需要在上传文档时进行一次处理，之后就可以自由地问询文档内容，而无需每次都经历漫长的等待。最终，模型将文档切分成了 0.6M

最低0.47元/天解锁文章

关注

21
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
大模型Gemini 1.5 Pro之我的体验

文字图片视频（包含音频）文件文件夹目前，模型的输出仅限于文字。由此可见，Gemini 1.5 Pro 更侧重于内容理解和整合。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。