官网:https://deepmind.google/technologies/gemini/#introduction
简介
Gemini是谷歌公司发布的人工智能大模型,能够在从数据中心到移动设备等不同平台上运行。
Gemini包括一套三种不同规模的模型:Gemini Ultra是最大、功能最强大的类别,被定位为GPT-4的竞争对手;Gemini Pro是一款中端型号,能够击败GPT-3.5,可扩展多种任务;Gemini Nano用于特定任务和移动设备。“双子座”Ultra版本是首个在“大规模多任务语言理解”(MMLU)领域超越人类专家的模型。---百度百科
https://baike.baidu.com/item/Gemini/63729669?fr=ge_ala#reference-4
视频介绍:https://www.bilibili.com/video/BV1r94y177Ws/?spm_id_from=888.80997.embed_other.whitelist&vd_source=7d0e42b081e08cb3cefaea55cc1fa8b7
相关能力对比
能力 |
基准 |
描述 |
Gemini |
GPT-4V(当GPT-4V不支持此功能时,列出了先前的SOTA模型) |
图像 |
MMLU |
Gemini相当于一个大学生,能够给出跨学科的答案 |
59.4% 0-shot通过率@1 Gemini Ultra(仅像素*) |
56.8% 0-shot通过率@1 GPT-4V |
VQAv2 |
能够理解自然图像 |
77.8% 0-shot Gemini Ultra(仅像素*) |
77.2% 0-shot GPT-4V |
|
文本VQA |
能够识别图片文字 |
82.3% 0-shot Gemini Ultra(仅像素*) |
78.0% 0-shot GPT-4V |
|
文档VQA |
能够理解文档的内容 |
90.9% 0-shot Gemini Ultra(仅像素*) |
88.4% 0-shot GPT-4V(仅像素*) |
|
信息图VQA |
能够理解信息图表 |