2024年7月人工智能前沿

7月1日(字节豆包进入国内大模型第一梯队 Gemma 2成最强开源模型)

  • 豆包大模型稳进国产大模型第一梯队

    • 在一项大模型的”高考大摸底“评测中,国内外共有四个大模型的高考文科成绩超过河南省一本线。按照得分排名,这四个模型分别是GPT-4o字节豆包文心一言4.0百小应。总体而言,GPT-4o的表现仍然处于领先状态,但是国产大模型中的字节豆包也取得了非常亮眼的成绩。
    • 权威评测榜单中,字节豆包也取得了非常不错的成绩:
      • 智源研究院发布的FlagEval(天枰):客观评测维度上,前四名分别为GPT-4字节豆包文心一言4.0Baichuan3;主观评测维度上,前四名分别是文心一言4.0字节豆包GPT-4oDeepSeek-V2(由深度求索开发)。
      • 上海人工智能实验室发布的OpenCompass(司南):客观综合评价维度上,字节豆包仅次于GPT-4oGPT-4-Turbo,高于Qwen-MaxClaude3-OpusYi-Large等模型。
    • 这次高考评测中,仍然可以看出大模型文科强理科弱的特点。
    • 通过高考评测和各大权威平台的评测可以看出,字节豆包已经稳稳进入国产大模型第一梯队。字节豆包的优化逻辑是用最大的使用量打磨出最好的大模型,这样的逻辑已经取得了不错的效果。
    • 2024年5月,智能助手类APP下载总量和智能助手类APP月新增下载总量中,字节豆包都断崖式获得第一名的成绩。
  • Gemma2成为最强开源模型

    • 上周由谷歌发布的Gemma 2LMSYS竞技场上取得了开源模型的最高分。
    • 该模型以27B的参数以小博大,超过了Llama3-70B-InstructClaude 3 Sonnet等更大量级的知名模型。
  • 视频生成模型不懂物理吗

    • 最近, 视频生成模型Gen-3开放内测,尽管效果确实足够惊艳,但是也暴露出了一系列问题。
    • 另一家AI公司Luma AI的最新视频生成模型Dream Machine也存在类似的生成的视频违反物理规律的内容。
    • Yann LeCun直接评论,认为现有的所有视频生成模型本质上都不懂物理。

7月2日(从容多模态大模型成为全球TOP3)

  • 云从多模态大模型成为全球TOP3
    • 云从科技的从容大模型,在OpenCompass权威榜单上,获得全球第三,仅次于GPT-4oClaude3.5-Sonnet
    • 在国内多模态大模型中,从容大模型超过了国内的InternVL-ChatGLM-4V

7月3日(科大讯飞发布性能超过GPT-4-Turbo的星火大模型4.0)

  • 科大讯飞发布搭载了星火4.0大模型的学习机
    • 上周公布的国家科学技术奖,科大讯飞作为第一单位获得国家科学技术进步一等奖,这是过去十年人工智能领域获得的首个国家级一等奖。
    • 获奖后,讯飞星火4.0大模型发布,其在八大榜单中并列第一,模型整体性能超过GPT-4-Turbo
    • 讯飞星火4.0V在不同学科的图文识别上都超过了最强的GPT-4o,尤其是识别复杂的手写体。
    • 搭载了星火4.0大模型的最新一代学习机也随之发布,获得了用户的广泛好评。

7月4日(阶跃星辰获WAIC最高奖项 开源版“GPT-4o”发布)

  • 阶跃星辰连放三大模型
    • 业界目前堆通往AGI的道路有不同的看法。在LeCun看来,LLM完全是把全世界带向了歧途,浪费巨大的计算资源在LLM上,远不如新想法和新架构有效;但是,Sam Altman、马斯克和Anthropic创制人、Deepmind创始人等,都认为AGI会在未来十年内发生。
    • 今天,阶跃星辰一口气放出了三个大模型:Step-2万亿MoE语言大模型正式版、Step-1.5V多模态大模型和Step-1X图像生成大模型。
    • 阶跃星辰凭借Step系列通用大模型技术上的创新和应用落地,获得了世界人工智能大会(WAIC)的最高奖项Super AI Leader
  • 开源版“GPT-4o”发布
    • 来自法国的人工智能实验室Kyutal放出了首个实时原生多模态模型Moshi,演示效果堪比五月发布的GPT-4o
    • 该模型由一个八人团队仅用时半年,就从头开始完成了训练。
    • 理论上说,Moshi的最低延迟可以实现160毫秒,创下了新的世界纪录。

7月5日(AI数学竞赛取得巨大突破)

  • AI数学竞赛取得巨大突破
    • Kaggle上的第一节AI数学奥林匹克竞赛中,第一名的模型在全部的50道题目中答对了29道,该团队的名称是Numina
    • 另外,该比赛的第二名是CMU的华人博士(北大计算机本科),他仅凭一人取得了该成绩。
    • Numina团队参赛的模型被称为Numina Math 7B,但是该模型暂未发布。

7月9日(全新模型架构TTT提出)

  • 全新架构TTT提出
    • 斯坦福、UCSD、UC伯克利和Meta的研究人员提出了一种全新的架构,该架构的核心是用机器学习模型取代RNN的隐藏状态。
    • 该架构中通过对输入的token进行梯度下降来压缩上下文,这种新方法被称为“测试时间训练层“(TTT)。
    • TTT层直接取代了传统的注意力机制,解锁了具有表现力记忆的线性复杂度架构,使得我们能够训练包含至少数百万个tokenLLM
    • 结果证明,TTT-LinearTTT-MLP直接赶超或击败了最强的TransformerMamba

7月10日(全球首个芯片设计开源大模型发布)

  • 全球首个芯片设计开源大模型发布
    • 今天,在Semicon West 2024大会上,Aitomatic发布了首个半导体行业设计的新模型,该模型将革新半导体工艺和制造技术。
    • 该模型的代码权重已经放在Hugging FaceGithub上可供下载。
    • 该模型使用Llama-3-Instruct使用半导体领域的专业知识微调获得,有8B的参数。

7月11日(CVPR成为学术指标第二的期刊)

  • CVPR成为全球学术指标第二的期刊
    • 在最新的一年一度的谷歌学术指标中,CVPR成为排名第二的期刊,超过了Science,仅次于Nature
    • 另外,NeurlPSICLR两大顶会也分别位列第七和第十。
    • 近十年,CVPR被引用次数最多的文章包括MocoStyleGANStable DifussionConvNetEfficientDetMAEYOLO v7ECA-Net等。

7月12日(FlashAttention3推出 昆仑万维发布通用Agent OpenAI的API路线图曝光)

  • FlashAttention3推出
    • FlashAttention是一种在GPU上加速注意力机制的方法,现在大多数的库都是用它来加速Transformer的训练和推理。这项技术使得大语言模型在过去两年中获得了上下文长度的快速增加。
    • 2023年7月,FlashAttention2发布。时隔一年,在FlashAttention2的基础上,专门针对H100FlashAttention3被提出,在之前的基础上又获得了1.5到2倍的速度提升,将H100芯片的利用率提高到了75%。
    • FlashAttention3比Pytorch上的标准注意力机制操作快5-9倍。
    • 目前,FlashAttention3只能在H100H800上运行,不支持其他GPU型号。
    • FlashAttention1FlashAttention2的第一作者也是Mamba的共同一作,普林斯顿大学的助理教授Tri Dao,他也在FlashAttention3的作者列表中。
  • 昆仑万维发布通用智能体Cradle
    • 昆仑万维携手北京智源人工智能研究院、南洋理工大学、北京大学等机构,联合提出了迄今为止第一个能玩多种商业游戏和各种软件应用的AI框架Cradle
    • 在这个AI框架的加持下,AI智能体无需训练就可以直接像人一样直接控制鼠标和键盘,而不需要依赖任何API。
    • 该智能体可以被称为真正的全能AI智能体。
  • OpenAI的AGI路线图曝光
    • OpenAI内部的通往AGI的最新路线图曝光。
    • 在该路线图中,OpenAI把最终抵达AGI划分为了五个等级:
      • L1:聊天机器人,具有对话能力的AI;
      • L2:推理者,能够像人类一样解决问题的AI;
      • L3:智能体,不仅能够思考,还可以采取行动的AI系统;
      • L4:创新者:能够协助发明创造的AI;
      • L5:组织者,可以完成组织工作的AI。
    • OpenAI的一位高管表示,目前正处于第一级别,但是很快就会到达第二个级别。

7月13日(OpenAI的Strawberry项目爆出)

  • OpenAI最新绝密项目Strawberry爆出
    • 该项目是OpenAI最新的绝密项目。内部严格保密,细节从未报道。
    • Strawberry的前身是Q-starQ*),即之前从未报道过的超级模型。
    • OpenAI希望该模型不仅能够生成答案,还能够执行长任务,自主可靠开展行动。
    • 据传该模型在一个名为“深度研究”的非常大的数据集上完成了预训练。
    • 据说该模型使用了与斯坦福大学在2022年提出的一种名为自学推理的方式进行后训练。提出该方法的论文是STaRSTaR模型不依赖于大规模人工标注的数据集进行训练,而是通过自举的方式让大模型学会推理。今年斯坦福大学又基于STaR提出了一种名为Quiet-STaR的推理方式。

7月15日(Pytorch团队首发内部技术路线图 台积电市值首破万亿)

  • Pytorch团队首发内部技术路线图
    • Pytorch是由Meta AI在2017年发布的著名的深度学习领域的开源库。根据统计数据,HuggingFace上最受欢迎的30个模型都能在Pytorch上运行,有92%的模型是Pytorch特有的,这个占比让包括TensorFlow在内的竞争对手都望尘莫及。
    • Pytorch团队在7月10日首次公开发布了内部的技术路线图,阐述2024年下半年的发展方向。
  • 台积电市值首破万亿
    • 近日,苹果和英伟达的芯片制造商台积电的市值短暂突破一万亿美元,成为亚洲之首。
    • 今年年内,台积电的股票已经上涨了近80%,按照市值计算,该公司已经成为全球第八大最有价值的公司。
    • 除了英伟达和苹果,该公司还向AMD、博通、英特尔和高通供货。这些处理器的需求量很大,并且大多数情况下,台积电都找不到竞争对手。
    • 消息传出,台积电拟定制作新一代2nm处理器芯片,iPhone17有望搭载这款芯片。

7月16日(AMD显卡上可运行CUDA程序 黎曼猜想取得重大突破)

  • 9.9和9.11谁大的问题让大量大模型翻车

    • 国外大模型中,GPT-4oGemini Advanced付费版Claude 3.5 Sonnet都认为9.11比9.9更大。
    • 国内大模型中,KimiChatGLM字节豆包文心一言4.0都做错了,只有腾讯元宝给出了正确答案。
    • 实验发现,通过思维链提示词技术,能够帮助大模型将这道题目做对,但是通过角色扮演,却不能对大模型做对这道题产生帮助。最近的研究表明,随着大模型技术的进步,角色扮演能够对提示词的优化能力已经越来越低了,这一观点已经得到了很多研究者的认同,包括Django框架的开发者Simon Willison。
  • 在AMD显卡上可以运行CUDA程序了

    • 英国初创公司推出了针对AMD显卡的CUDA程序编译工具,并且免费商用。
    • 该工具发布后立即登顶了HackerNews热搜榜第一。
    • 该工具名为SCALE,开发者将其定为为一个通用GPU编程工具包。
  • 大模型理解和推理Excel表格更加精准

    • 微软的一项最新研究SPREADSHEETLLM让大模型可以更好地处理各种电子表格任务。
    • 与作为基线的GPT-4模型相比,该模型的准确度提高了22%
  • 黎曼猜想证明取得重大突破

    • 麻省理工学院的数学教授和牛津大学的菲尔茨奖得主在黎曼猜想方面取得重大突破。

7月17日(Mistral发布首款7B开源Mamba模型 Claude登录安卓)

  • Mistral发布首款7B开源Mamba模型
    • Mistral今天发布了两个7B模型,分别是针对STEM学科的Mathstral和基于Mamba架构的代码模型CodeStral Mamba
    • Mathstral相较于上一代模型,数学能力得到了显著提升。根据官网博客文章,该模型似乎牺牲了一部分的推理速度来获得更好的性能。
    • 代码模型Codestral是首批采用Mamba2的开源模型之一,在所有7B的代码模型中性能最好。该模型的研发过程也得到了Mamba原作者的帮助。
    • Mamba相较于Transformer,具有线性时间推理的优势,并且理论上能够建模无限长度的序列。
  • Claude登录安卓
    • Anthropic发布Claude聊天机器人安卓版。
    • 该APP非常轻量,只有4MB,得到了用户的广泛好评。

7月19日(GPT-3.5退役 GPT-4o mini发布)

  • GPT-4o mini发布
    • 今天深夜,GPT-3.5正式退役(尽管开发者在后续一段时间内仍然可以通过API进行调用),取代它的模型是全新发布的GPT-4o mini。该模型更小但是性能更强,并且最重要的是要便宜得多,比两年前的最强模型text-davinci-003的价格便宜100倍。
      • 价格方面:每100万个token输入为15美分;每100万个token输出为60美分。
      • 性能方面:在MMLU评测集上的得分达到了82%
    • 该模型的发布意味着OpenAI也开始参与目前如火如荼的大模型价格战,并且也开始参与小模型方向的竞争。
    • 该模型在ChatGPT官网上对所有用户开放。
    • GPT-4o mini的知识更新到2023年10月,语言种类与GPT-4o对齐,上下文窗口达到了128K
    • 目前,该模型的性价比已经超过了Gemini 1.5 FlashLlama3 8BMistral 7B等众多竞争对手,成为了性价比最高的模型。
  • Mistral联合英伟达发布Nemo模型
    • 该模型的性能赶超了Gemma-2 9BLlama-3 8B
    • GPT-4o mini的发布和Nemo的发布可以看出,大模型的小模型赛道竞争越来越激烈。

7月20日(全球微软系统蓝屏)

  • 全球微软系统蓝屏
    • 该事件是全球IT最大的宕机事件;
    • 该事件的元凶是一家网络安全巨头公司CrowdStrike,该公司的软件向Windows系统发送了一个更新,导致本次宕机事件。

7月22日(HuggingFace失误泄漏Llama 3.1 苹果最大程度开源7B模型)

  • HuggingFace失误泄漏Llama 3.1
    • HuggingFace内部的工程师失误泄漏了Llama 3.1
    • 据称,该模型有128K上下文长度,同时有8B70B405B三个版本,前两个版本是由405B的模型进行蒸馏获得;
    • Llama 3.1405B模型参数将是密集的,而不是像GPT-4一样的MoE架构;
    • Llama 3.1 405B仍然是一个纯文本的大模型,而非多模态的;
    • MetaAI的CEO扎克伯格曾提到,Llama 3在停止训练之前仍然在学习,并且还未完全收敛,但是由于需要为Llama 4的训练腾出GPU资源,才不得已终止训练;
  • 苹果最大程度开源7B模型
    • 苹果最新推出了7B模型,该模型的效果与Llama 3 8B相当,击败了Mistral 7B
    • 该模型完全开源了所有内容,包括预训练所用的数据集。
    • 目前,各大AI巨头开始了疯狂的小模型竞争,HuggingFace创始人表示,小模型周来了。

7月23日(Llama-3.1即将成为最强大模型 马斯克建成世界上最强AI集群)

  • Llama-3.1-405B即将成为最强大模型
    • Llama-3.1-405B的基准测试和磁力链已经提前泄露了,如果基准测试的结果是真的,那么该模型将成为世界上目前最强的开源大模型和最强的模型,并且比GPT-4o还便宜。
    • 另外,Meta将8B模型和70B模型的上下文长度也提升到了128K
    • 基准测试显示,70BLlama-3.1模型,在很多基准上都已经赶超了GPT-4o405BLlama-3.1模型,在微软的多项评测中超过了GPT-4o。另外,目前的结果仍然是基础模型的效果,如果经过了后期的对齐训练,则instruct模型的分数还可能更高。
  • 马斯克建成世界上最强AI集群
    • 马斯克在之前的采访中透露,Grok 2已经在上个月完成了训练,大约使用了15000H100芯片,该模型将在下个月进行发布,据称该模型与GPT-4相当;Grok 3将在100000张液冷H100芯片上进行训练,并将在12月发布,成为世界上最强大的人工智能。
    • 今天当地时间凌晨4:20,由xAIX和英伟达等合力打造的拥有十万块H100芯片的超算集群孟菲斯超级集群已经开始投入进行模型训练,该集群是当前世界上最强的训练集群。
  • 谷歌天气模型登上Nature
    • 谷歌发布了一款名为NeuralGCM的模型,该模型可以比其他模型高效十万倍地模拟地球大气,准确且高效地预测气候变化;
    • 该研究成果被刊登在了Nature上,并且得到了谷歌CEO劈柴的热烈宣传。
  • 几何朗兰兹猜想被证明
    • 朗兰兹纲领是现代数学研究中最大的单项项目,被称为数学的大一统理论。几何朗兰兹猜想是朗兰兹纲领的几何化版本;
    • 今天,九位数学家,横跨三十多年,总计八百多页的论文,终于证明了几何朗兰兹猜想。

7月24日(Llama-3.1-405B正式发布 微软VALLE-2让语音克隆达到人类水平)

  • Llama-3.1-405B正式发布
    • Llama-3.1-405B在多项基准测试中,一举超越了GPT-4oClaude-3.5 Sonnet,这是史上首次开源模型击败了当今最强的闭源模型。目前,Llama-3.1-405B已经成为了世界上最强大的大模型。
    • Llama-3.1-405B同时上线的,还有8B70B两个版本。
    • Llama-3.1-405B模型开放了全部的权重和代码,允许进行微调,并蒸馏到其他的模型中,以及在任何地方进行部署。该模型支持128K的上下文、多语言。
    • 除了模型本身,Meta还放出了一篇90多页的论文。该论文包含了预训练数据、过滤、退火、合成数据、缩放定律等等关于该模型的所有内容。
    • Llama-3.1是在16000个英伟达H100的GPU芯片上完成训练的,并且并没有采用最受关注的MoE架构。
  • 微软发布超强语音合成模型VALLE-2
    • 最近,微软发布了零样本的文本到语音模型(TTS模型)VALLE-2,首次实现了与人类同等的水平,可以被称为语音合成领域的里程碑。
    • 该模型是微软在2023年年初发布的VALLE模型的后续,当时的VALLE模型已经是TTS领域的重大突破。

7月25日(Mistra发布Large 2模型)

  • Mistral-Large-2发布
    • Llama-3.1-405B模型尽管效果卓越,但是其巨大的参数规模基本上没有办法让个人开发者在本地运行。
    • 另一位开源巨头Mistral发布了该公司最新的旗舰模型Mistral-Large-2。该模型在代码生成、数学和推理等方面明显增强,可与GPT-4oLlama-3.1比较。
    • 该模型的参数量只有123B,不到Llama-3.1-405B的三分之一,完全可以在单个结点上以大吞吐量运行。

7月26日(SearchGPT推出 智谱版Sora发布 谷歌AI差点赢得IMO金牌 GPT-4o-mini开放免费微调)

  • OpenAI推出SearchGPT
    • OpenAI推出名为SearchGPT的AI搜索引擎,正式狙击搜索霸主Google
    • 目前SearchGPT还未开放公测,仅有一万名用户受到邀请,其余想要加入内测的用户需要在官网手动申请;
    • SearchGPT相较于传统搜索的两个主要优势:首先,充分发挥LLM的文本能力,使得搜索结果更加准确;另外,SearchGPT不仅能够搜索结果,还可以就细节和衍生话题进行对话。
  • 智谱AI版Sora模型清影发布
    • 智谱AI版的Sora横空出世,该模型名为清影。
    • 清影模型不仅支持文生视频,还支持图生视频。
    • 最重要的是,该模型全民免费,不用排队且不限次数;
    • 另外,该视频生成大模型的API也已经全面开放了,是国内首个。
  • 谷歌AI差点赢得IMO金牌
    • 谷歌DeepMind宣布,今年国际数学奥林匹克竞速的真题,被自家的AI系统做出来了。
    • 谷歌的AI完成了6道题中的4道,并且每道题都获得了满分,相当于是IMO比赛银牌的最高分,该成绩离金牌仅差一分。
    • 完成该任务的两款AI系统分别是AlphaProofAlphaGeometry 2,需要指出的是,2024 IMO比赛的题目并不在两个AI的训练数据中。
  • GPT-4o-mini开放免费微调
    • Llama-3.1开源的同一天,OpenAI宣布GPT-4o mini模型可以在两个月之内免费微调。
    • 另外一边,GPT-4o mini在LMSYS竞技场上的总榜单排名上与GPT-4o并列第一。

7月30日(苹果AI正式上线 SAM2发布)

  • 苹果AI正式上线
    • 目前苹果AI只对iOS 18.1iPadOS 18.1macOS Sequoia 15.1三大系统开放。在这些系统中,只需要注册开发者即可体验到苹果AI的部分功能。
    • 需要指出的是,iOS 18.1测试版目前仅限美国开放,国内暂未上线。
    • 苹果AI在端侧设备上的模型仅有30亿参数,因此只占用2.86GB的内存。
  • SAM2(Segment Anything 2)正式发布
    • 时隔一年多,Meta在SIGGRAPH会议上再次重磅推出了Segment Anything 2模型。
    • 该模型在SAM1的基础上,将分割拓展到了视频分割领域。
    • 该模型仍然是一个开源项目,其代码和权重已经全部以Apache 2.0的形式发布,完整的数据集也可以获取。
    • 这是Meta上星期开源Llama-3.1-405B模型之后,又一个重大的开源项目。

7月31日(Midjourney v6.1发布)

  • Midjourney v6.1发布
    • Midjourney v6.1正式发布,在8个方面进行了升级,让生成的图像更加好看。
    • 据透露,下一个版本马上就会发布,可能就在下一个月,现在该公司正在收集大量的用户使用数据。
  • 29
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值