大模型日报 2024-07-12_vot 视频思维链-CSDN博客

本文链接：https://blog.csdn.net/weixin_40262196/article/details/140405888

大模型日报

2024-07-12

大模型资讯

OpenAI 机密五级 AGI 路线图曝光！GPT-4 仍处 L1，内部 AI 接近博士水平 18 个月诞生
- OpenAI 的机密五级 AGI 路线图曝光，GPT-4 目前处于 L1 即将进入 L2，预计 27 年实现五级 AGI。路线图划分聊天机器人（L1）、推理者（L2）、智能体（L3）、创新者（L4）和组织者（L5）五个等级。目标是在特定任务上实现博士级智能，一年或一年半内达成。这与 DeepMind 提出的六级 AI 框架有相似处。AGI 是在最具经济价值任务中超越人类的高度自治系统，OpenAI 与洛斯阿拉莫斯国家实验室合作测试 GPT-4o 功能并建立安全规范，AGI 到来时间众说纷纭，Sam Altman 等人预计十年内实现。
英伟达又赚到了！FlashAttention3 来了：H100 利用率飙升至 75%
- 介绍名为 FlashAttention-3 的快速、内存高效注意力算法，可加速注意力计算并减少内存占用。采用三种主要技术加速 Hopper GPU 注意力，在 FP16 上速度提高 1.5 - 2 倍，H100 上高达 740 TFLOPS（75%实用性），FP8 接近 1.2 PFLOPS。改进带来更高效 GPU 利用率、较低精度下更好性能及能在 LLM 中使用更长上下文。
五年后的今天，训练 GPT-2 只需不到 700 刀、24 小时，Karpathy 又整新活
- 介绍 Andrej Karpathy 在项目“llm.c”中训练 GPT-2 的最新进展。相比 5 年前，训练大型语言模型成本大幅下降，现只需不到 700 美元和 24 小时。Karpathy 分享训练心得，提到项目目标和未来方向，还提供使用 llm.c 训练 GPT-2 的详细说明和 GitHub 地址。

大模型论文

首个视频思维链推理框架 Video-of-Thought 来了：像人一样从感知到认知全面推理视频
- 新加坡国立大学联合南洋理工大学和哈工深的研究人员提出全新视频推理框架 Video-of-Thought（VoT）。通过分解复杂视频推理问题为系列子问题，结合时空场景图（STSG）和视频多模态大模型，实现对视频的深入理解和推理，在各类视频 QA 上性能超越传统视频多模态大模型和 CoT 方法。

本文由 mdnice 多平台发布