【大模型】大模型相关动态

常见大模型

国家对话产品大模型链接
美国OpenAI ChatGPTGPT-3.5、GPT-4https://chat.openai.com/
美国Microsoft CopilotGPT-4 和未知https://copilot.microsoft.com/
美国Google BardGeminihttps://bard.google.com/
中国百度文心一言文心 4.0https://yiyan.baidu.com/
中国讯飞星火星火 3.5https://xinghuo.xfyun.cn/
中国智谱清言GLM-4https://chatglm.cn/
中国月之暗面 Kimi ChatMoonshothttps://kimi.moonshot.cn/
中国MiniMax 星野abab6https://www.xingyeai.com/
中国阿里通义千问
中国字节跳动:豆包
中国昆仑万维:天工
中国百川智能
中国腾讯:混元

画图模型
midjourney Discord、stable Diffusion
文生视频模型:runWay pika

常见编码大模型

  • 阿里巴巴:通义灵码
  • GitHub、微软:copilot
  • Amazon:codewhisperer
  • 百度:comate
  • 智谱AI:CodeGeeX
  • 科大讯飞:iFlyCode

OpenAI在亚洲开设第一个办事处,GPT-4速度快3倍

20240416

4月15日,OpenAI在官网宣布,在日本东京开设了亚洲第一个办事处,并提供针对日语优化的GPT-4自定义模型。

https://mp.weixin.qq.com/s/PvwXnNHnTp3HGlz7jbKscw

文本直接生成多视角3D图像,Meta推出创新模型

20240416
随着扩散模型的不断创新,文生图领域出现了Midjourney、Stable Diffusion、DALL-E 3等一系列知名产品。

但在文本生成多视角3D图像方面一直存在诸多技术难点,Meta和德国慕尼黑工业大学的研究人员联合开发了创新模型——ViewDiff。

用户通过文本、图像或二者结合使用,就能生成高质量多视角3D图像,可帮助游戏开发、元宇宙等行业快速构建模型。

根据测试数据显示,ViewDiff生成的图像在一致性和视觉质量方面非常出色,并将FID、KID的数据,分别提升了30%和37%。

论文地址:https://arxiv.org/abs/2403.01807

项目地址:https://lukashoel.github.io/ViewDiff/

https://mp.weixin.qq.com/s/Qz1fkpwQJx5fQjnDXsPRxw

马斯克展示Grok-1.5 Vision:多模态,能理解真实世界

20240414
4月13日,马斯克旗下的AI公司x.ai在官网展示了,Grok-1.5 Vision的众多亮点功能。

与上一代1.0开源版本相比,Grok-1.5与GPT-4一样加入了Vision视觉功能可以深度理解真实世界,并进行数据解读、转换等。例如,给出一张蒙娜丽莎的图片,让其讲解该图片的来历以及故事等。

根据x.ai公布的测试数据显示,Grok-1.5 V的真实世界理解能力超过了GPT-4V、Claude 3 Opus 、Gemini Pro 1.5等知名多模态模型。

https://mp.weixin.qq.com/s/PvwXnNHnTp3HGlz7jbKscw

英特尔重磅发布Gaudi 3芯片:将进入中国,比H100强50%!

20240413
全球芯片领导者英特尔在“Vision 2024”大会上,重磅发布了专用于生成式AI训练、推理的芯片——Gaudi 3。

根据英特尔官方公布的测试数据显示,在Llama-2 7B/13B和GPT-3 175B大模型的训练中,Gaudi 3的训练时间平均比英伟达的H100缩短了50%。

在Llama-2 7B/70B以及Falcon180B大模型的推理测试中,Gaudi 3的吞吐量平均比H100快了50%,平均推理效率快了40%;即便与H200相比,推理效率也快了30%,这是一块性能非常强劲的AI芯片。

目前,英特尔已与戴尔、联想、惠普等著名厂商达成了战略合作,将于2024年第二季度陆续提供该芯片。但由于美国官方限制,英特尔会在6月和9月提供“中国版”Gaudi 3系列芯片。

Gaudi-3白皮书:https://www.intel.com/content/www/us/en/content-details/817486/intel-gaudi-3-ai-accelerator-white-paper.html

https://mp.weixin.qq.com/s/brciF0dxsl54fxkchFJyLw

北大软工所,开源aiXcoder-7B性能完爆同级大模型!

20240411

4月9日,由北大软工所aiXcoder团队开源的7B代码大模型,不仅是对国内软件企业智能化升级的又一次强助力,更是在全球AIGC技术的竞争大潮中,再次展现国产创新的引领作用。专注于代码生成领域

aiXcoder-7B 开源链接:
https://github.com/aixcoder-plugin/aiXcoder-7B
https://gitee.com/aixcoder-model/aixcoder-7b
https://www.gitlink.org.cn/aixcoder/aixcoder-7b-model
https://wisemodel.cn/codes/aiXcoder/aiXcoder-7b

https://mp.weixin.qq.com/s/QS9sMfw8ZmnOUOqvXRvk0A

谷歌重磅发布Gemini 1.5 Pro:能自动写影评,理解视频!

20240410
4月10日凌晨,谷歌在官网正式发布了Gemini 1.5 Pro,现在可在180多个国家/地区使用。

除了能生成创意文本、代码之外,Gemini 1.5 Pro最大的特色是能根据用户输入的文本提示,理解、总结上传的视频、音频内容进行深度总结,并且支持100万tokens上下文。

https://mp.weixin.qq.com/s/E-0c8cHZcvga8eNqdu1msA

Llama 3下月正式发布,继续开源!

20240410
4月10日,Techcrunch消息,Meta在本周伦敦举办的一场活动中确定,下个月将正式发布Llama 3并且继续开源。

Meta全球事务总裁Nick Clegg表示,我们希望在下个月,甚至更短的时间内,正式推出新一代基础模型Llama 3。它将有很多个版本,而且功能也各不相同。

Llama 3的参数大约只有1400亿左右,将继续保持高性能,低参数的风格。

数据训练方面,LLaMA使用公开可用的数据集进行训练,其中包括开放数据平台Common Crawl、英文文档数据集C4、代码平台GitHub、维基百科、论文平台ArXiv等,总体标记数据总量大约在1.4万亿个Tokens左右。

Llama 2 预训练模型接受了2万亿个标记的训练,上下文长度是Llama 1的两倍。其微调模型已经接受了超过100 万个人类注释的训练,整体性能非常强悍。

https://mp.weixin.qq.com/s/_iWt5oEcJgRyj0AMpIMRrQ

Cohere发布RAG增强版大模型并开源权重,支持中文、1040亿参数

20240406

4月5日,知名类ChatGPT平台Cohere在官网发布了全新模型——Command R+。

据悉,Command R+有1040亿参数,支持英语、中文、法语、德语等10种语言。最大特色之一是,Command R+对内置的RAG(检索增强生成)进行了全面强化,其性能仅次于GPT-4 tubro,高于市面上多数开源模型。

目前,Cohere已经开源了Command R+的权重,但只能用于学术研究无法商业化。想商业应用,用户可以通过微软Azure云使用该模型或者Cohere提供的API。

huggingface地址:https://huggingface.co/CohereForAI/c4ai-command-r-plus

量化版:https://huggingface.co/CohereForAI/c4ai-command-r-plus-4bit

什么是RAG

RAG(Retrieval-Augmented Generation)是一种结合了信息检索和生成的技术,主要为大型语言模型提供外部知识源,以便生成更准确、更丰富的回答或内容,并减少模型的幻觉问。

RAG的主要架构包括检索器、生成器和融合机制三大块。

检索器:检索器的作用是在给定输入(例如,一个自然文本提问)时,从一个大规模的文档集合中快速检索出相关的文档或信息片段。常用的检索方法包括基于向量空间模型的方法包括BM25、Dense Passage Retrieval等。

生成器:生成器通常是一个预训练模型,例如,GPT-4、Command R+等。它使用检索到的文档作为额外的上下文信息,生成与输入相关的回答或文本。

融合机制:在检索到的文档和原始输入之间建立联系的机制。它决定了如何将检索到的信息整合到生成过程中,以提高生成文本的相关性和准确性。

可以通过不同的方式实现,包括直接将检索结果作为生成器的一部分输入,或使用更复杂的注意力机制来动态选取最相关的信息。

所以,大模型在使用了RAG功能后,可以访问比预训练模型训练时期更广泛、更具时效性的知识,提高生成内容的相关性和准确性。

尤其是对于一些需要特定知识背景的任务,大模型直接生成响应需要耗费巨大AI算力。而RAG通过检索引入的背景知识,可以显著减少算力需求。

https://mp.weixin.qq.com/s/PBiXl1GIoElXodAOYEkTLw

OpenAI发布全新微调API :ChatGPT支持更详细可视化微调啦

20240405

4月5日凌晨,OpenAI在官网宣布新增6个全新微调API功能,以扩展自定义模型,帮助企业、开发人员更好地构建特定领域、精细化的ChatGPT应用。

这些功能包括:基于Epoch的检查点创建、Playground新功能、第三方集成、全面验证指标、超参数配置和更详细的微调仪表板改进。

新的微调API功能适用于GPT-4/Turbo、GPT-3.5等系列模型。

详细微调API教程:https://platform.opEnai.com/docs/guidEs/finE-tuning

什么是微调

微调(FinE-tuning)是一种在预训练大模型的基础上,进一步优化和调整模型参数的技术,使模型更好地适应特定业务场景。这个过程中,模型的参数会进行微小的调整。

微调的主要流程包括:初始化,使用预训练语言模型的参数对新模型进行初始化;添加输出层,根据下游任务的目标(文本生成、内容摘要等)在预训练模型的顶层添加相应的输出层;

微调训练,使用带标注的私有数据,以较小的学习率对整个模型进行训练,直至模型在验证集上的指标达到理想效果。

例如,我们希望GPT3.5模型在法律业务上的表现更好、更专业,可以用海量法律数据集对模型进行微调。经过微调,模型学习到如何更好地解读、生成和预测法律问题。

https://mp.weixin.qq.com/s/0-3TptRmDJbsdR_ESlTR5g

微软与Quantinuum合作,实现量子计算重大突破!

20240404
4月4日,量子计算公司Quantinuum与科技巨头微软宣布,在实现容错量子计算方面取得重大突破。双方合作展示了具有主动综合征提取功能的最可靠逻辑量子比特,这一成就曾被认为需要数年时间才能达到。

通过采用微软的量子比特虚拟化系统,Quantinuum的新一代量子计算机成功创建了四个逻辑量子比特,其逻辑错误率比物理错误率低高达800倍。这一突破性演示是由Quantinuum位于美国和英国的团队与微软的量子计算团队紧密合作完成的。

https://mp.weixin.qq.com/s/lHo-_dv2p6OhATxkf5We-w

文本生成3分钟44.1 kHz 音乐,Stable Audio 2.0重磅发布!

20240404

4月4日,著名开源大模型平台Stability.ai在官网正式发布了,音频模型Stable Audio 2.0。

Stable Audio 2.0支持用户通过文本或音频,一次性可生成3分钟44.1 kHz的摇滚、爵士、电子、嘻哈、重金属、民谣、流行、乡村等20多种类型的高质量音乐。

其生成音乐的时长也超过了谷歌的Music-fx、Meta的AudioCraft等知名产品。目前已正式开放,免费提供试用(没锁区直接登录)。

体验地址:https://stableaudio.com/generate

https://mp.weixin.qq.com/s/_hvfcjjY71L8MzXqb8X6WA

在ChatGPT中,能用DALL·E 3编辑图片啦!

20240403
4月3日,OpenAI开始向部分用户,提供在ChatGPT中的DALL·E 3图片编辑功能。

DALL·E 3是OpenAI在2023年9月20日发布的一款文生图模型,其生成的图片效果可以与Midjourney、leonardo、ideogram等顶级产品媲美,随后被融合到ChatGPT中增强其多模态能力。

但有一个很大的问题是,人们无法对AI生成的内容进行精准控制,因为这些都是神经元随机生成的,即便你用最精准的提示词也无法做到。

所以,OpenAI推出了DALL·E 3的可视化编辑功能,帮助用户将生成的图片达到最佳理想效果,例如,生成一片绿油油的大草原。

你希望在草原的中间加上一条蜿蜒的河流,现在通过编辑功能只需要涂抹区域,然后输入“流动的河流”即可。简单来说,相当于在DALL·E 3中内置了一个简易的PS功能。

https://mp.weixin.qq.com/s/BddoLDRgw_Iz1AFQc3hxmA

重磅!无需注册,可直接使用ChatGPT

20240402

4月2日凌晨,OpenAI在官网宣布,无需注册可直接使用ChatGPT!

目前,市面上的主流生成式AI聊天机器人,例如,Gemini、Copilot、Claude.ai、文心一言、讯飞星火等,基本都需要注册使用。

需要注意的是,在不注册情况下,用户只能使用GPT3.5版本,无法使用GPT-4等高级功能,同时只能开启一个对话,无法保留聊天记录。

https://mp.weixin.qq.com/s/zpZkh-P9f_r1t7HPnfIuZg

苹果与百度合作,将在iPhone 16中使用生成式AI

20240326
3月25日,《科创板日报》消息,苹果将与百度进行技术合作,为今年即将发布的iPhone16、Mac系统和iOS 18提供生成式AI(AIGC)功能。

据悉,苹果曾与阿里巴巴以及另外一家国产大模型厂商进行了技术合作洽谈。最终选择百度的原因,主要是从技术创新、法律合规、安全稳定等多方面综合考虑,苹果预计采用API接口的使用方式。

https://mp.weixin.qq.com/s/zxbQ6HoPVAYrT3c0h5ISsw

微软开源创新LoRA组合方法,增强文生图复杂细节控制

20240323

LoRA(低秩适应)的高效能力已在文生图领域获得广泛应用,可以准确渲染、融合图像中的特定元素,例如,不同字符、特殊服装或样式背景等,同时可对图像进行压缩、去噪、补全进行优化操作。

但想在模型中应用多个LoRA构建更复杂的图像时,会出现图像失真、难以控制细节的难题。因此,微软和伊利诺伊大学的研究人员开发了Multi-LoRA Composition(多重 LoRA 组合方法)。

该方法包括LoRA Switch和LoRA Composite两种,无需微调就能集成多个LoRA一起使用,并且能保持每个LoRA 的权重完整性。

论文地址:https://arxiv.org/abs/2402.16843

Github地址:https://github.com/maszhongming/Multi-LoRA-Composition

项目地址:https://maszhongming.github.io/Multi-LoRA-Composition/

https://mp.weixin.qq.com/s/MikK-rhOqPvKGPtqN8iEGA

谷歌推出通用AI代理:能自动执行600多种动作,游玩复杂3D游戏

谷歌DeepMind的研究人员推出了一种面向3D环境的通用AI代理——SIMA。

SIMA无需访问游戏的源代码,也不需要定制的API。只需要输入图像和用户提供的简单自然语言文本指令,SIMA就能像人类玩家一样执行走路、跑步、建造、打开地图等各种游戏中的操作。

为了测试、训练SIMA的性能,研究人员与8个游戏工作室合作,在《无人深空》、《模拟山羊3》、《Teardown》、《挖矿模拟器》等知名复杂3D游戏上进行了综合测试。

结果显示,用户只需要在游戏中提供简单的文本、图像提示,SIMA就能执行挖矿、开飞船、制作装备、打开外骨骼、搜集任务、爬楼梯等600多种基本操作,每个动作可以在大约10秒内完成。

技术报告:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf

https://mp.weixin.qq.com/s/_VRuFCyk836Q9kmqpBHgLQ

具备实时数据更新能力的大语言模型——Larimar

ChatGPT、Claude.ai等大模型产品就像“图书馆”一样为我们生成各种各样的内容。但是想更新这个图书馆里的知识却不太方便,经常需要漫长、费时的预训练、蒸馏才能完成。

研究人员提出了一种具有情景记忆控制的大语言模型Larimar,这是一种类似人脑"海马体"的"情景记忆"能力。

Larimar主要设计了一个外部记忆模块,专门储存独立的实时数据,并将这些记忆有效地注入到大语言模型中,使得Larimar无需重新预训练就能在内容生成过程中精准使用新的知识数据。

论文地址:https://arxiv.org/abs/2403.11901

https://mp.weixin.qq.com/s/Msx3rLo0zDS_WZ67Lyzezg

图片直接生成3D视频模型,开源Stable Video 3D来啦

20240320

3月19日,著名大模型开源平台stability.ai在官网开源了,图像直接生成3D视频模型——Stable Video 3D(以下简称“SV3D”)。
SV3D一共有两个版本:SV3D_u,支持单个图像生成轨道视频,无需相机调节;

SV3D_p扩展了 SVD3_u 的功能,支持单个图像和轨道视图,从而可以生成沿特定的摄像机路径创建 3D 视频。

huggingface地址:https://huggingface.co/stabilityai/sv3d

github地址:https://github.com/Stability-AI/generative-models?tab=readme-ov-file

论文地址:https://stability.ai/s/SV3D_report.pdf

https://mp.weixin.qq.com/s/cNaqtPwDZGVpx5cuELFYgQ

谷歌DeepMind联合创始人,加入微软领导Coplit

20240320
3月20日,微软首席执行官Satya Nadella分享了一个惊人的消息,谷歌DeepMind 和 Inflection联合创始人Mustafa Suleyman、Karén Simonyan加入微软。

Mustafa和 Karén将在微软领导一个全新的部门“Microsoft AI”,专注于推进 Copilot和其他消费者 AI 产品的研究。

Mustafa将担任Microsoft AI 的执行副总裁兼首席执行官,并加入高级领导团队直接向Satya汇报。

Karen将作为首席科学家加入该团队,向Mustafa 汇报。Inflection的其他核心技术成员也将加入Microsoft AI。

https://mp.weixin.qq.com/s/ntpeExASZNqXVQ6QF4Toew

CeMeta森宇宙 | 首个面向家电家居行业营销领域的AI大模型

20240319

3月14日,CeMeta森宇宙重磅发布了全球首个面向家居、家电行业的视觉营销大模型——森罗万象。该模型一共包括自然语义、视觉、视频三种大模型。本次发布的森罗万象视觉大模型,是CeMeta森宇宙结合自身20年垂直营销经验以及数百万张真实、多元化、专业的家居图片训练而成。在文本语义理解、图像形态、构图架构、光影等方面非常优秀。

不同于其他大参数模型,森罗万象是聚焦于家电家居领域的垂直AI模型。森曦在接受专访时表示:“我们的目标不是创建一个万能的AI,而是打造一个最懂家电家居行业的AI。” 这正是森罗万象大模型区别于其他泛化AI大模型的核心。他们不是在寻求一个通用解决方案,而是专注于解决家电家居领域的具体问题。

参考小参数模型,垂直领域的AI模型要想跑得出超越大参数模型的理想效果,数据的质量是至关重要的。例如,英伟达最近发布的Nemotron-4只有150亿参数,但经过8万亿tokens高质量训练数据洗礼后,轻松超过了拥有340亿参数的著名开源大模型 Llama-2。

https://mp.weixin.qq.com/s/Dih2hrQtq9-puXtrz2gq3A

英伟达发布GB200 NVL72,将万亿参数大模型推理效率提升30倍

20240319

3月19日,英伟达召开了“2024GTC”大会,在会上重磅发布了新一代AI专用GPU GB200 NVL72。

GB200 NVL72是一款专门面向万亿参数大模型训练、推理的产品,例如,在训练MoE(专家混合模型)时,需要多个子模型之间分配计算负载,并在数千个GPU上进行训练。这需要超高的并行计算、快速存储和高性能通信以及在大规模GPU集群下才能完成。

与上一代的H100 GPU相比,GB200 NVL72可以将训练效率提升4倍,数据处理提升6倍,实时推理效率提升30倍!

https://mp.weixin.qq.com/s/k-YZEaQH_WKbAcN3lJBsTw

3140亿参数,可商用!马斯克开源大模型Grok-1

20240319

3月18日,马斯克兑现了他的开源诺言,将旗下公司x.ai的大模型Grok-1正式开源,并且支持商业化用途。
Grok-1是一款类ChatGPT的混合专家模型,有3140亿参数,允许商业化,通过文本问答方式可以生成创意文本、代码等。
根据其公布的测试数据显示,性能超过了GPT-3.5、LLaMA 2 70B,弱于GPT-4、Claude 2、Palm 2等闭源模型。

开源地址:https://github.com/xai-org/grok-1

磁力地址:magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

https://mp.weixin.qq.com/s/4Mfuv1nIUvFJTwLfCbSGLw

8万亿训练数据,性能超LLaMA-2,英伟达推出Nemotron-4 15B

20240308

英伟达的研究人员推出了Nemotron-4 15B。这是一个拥有150亿参数的大语言模型,并基于8万亿文本标注数据进行了预训练。

在数学、多语言分类和代码等测试评估中,Nemotron-4 15B在7个领域中的4个超过了所有现役同类大小的开源模型,并且在其他领域中也表现出了优秀的性能。

技术报告地址:https://arxiv.org/abs/2402.16819

https://mp.weixin.qq.com/s/MimszLqneKZSWQw8v8BS_Q

开源、可商用,仅需0.5秒图片直接生成3D模型!

20240305

3月5日,著名开源大模型平台Stability.ai与Tripo AI联合开源了——TripoSR。

用户通过TripoSR仅需0.5秒(在英伟达A100 GPU)就能将一张图片直接生成高质量3D模型。

如果使用低效率推理模式,即便不用GPU也能生成3D模型,这对于个人开发者、小型企业来说能节省不少资源。

目前,TripoSR已经全面开源,支持商业化和学术研究。其性能优于OpenLRM等开源模型,可应用在游戏开发、工业设计、广告等领域。

开源地址:https://github.com/VAST-AI-Research/TripoSR

在线demo:https://huggingface.co/spaces/stabilityai/TripoSR

技术报告:https://stability.ai/s/TripoSR_report.pdf

TripoSR是一种基于Transformer架构的前馈3D重建模型,大幅度优化了模型迭代生成的流程,同时保留了模型精确控制输出的能力。一共由图像编码器、图像到三平面解码器和NeRF三大块组成。

https://mp.weixin.qq.com/s/9NgBnbnahtIky3GnLXGr3Q

高伟绅律师事务所与微软合作,在全球业务中使用Copilot

20240305

3月6日,著名法律新闻平台Thelawyermag消息,英国伦敦五大律师事务所之一的高伟绅(Clifford Chance)与微软达成技术合作,将在全球业务中使用Microsoft 365 Copilot和Viva Suite。

Microsoft 365 Copilot是微软基于OpenAI的GPT-4系列大模型打造的一款类Copilot助手。用户通过文本提示的方式,就能快速起草邮件、总结内容、生成代码等。

Viva Suite则是一个员工体验平台,主要用于内部沟通、协作、学习知识等,目前已经整合在Microsoft 365中。

https://mp.weixin.qq.com/s/vvlyPRJ7HQ3DaCuLUsYd-g

性能超GPT-4!免费使用、支持中文,Claude 3正式发布

20240305

3月4日晚,著名生成式AI平台Anthropic在官网正式发布了,Claude 3系列多模态大模型。

据悉,Claude 3一共有Haiku、Sonnet和Opus三个版本。根据其评测报告显示,Opus在研究生水平专家推理、基础数学、本科水平专家知识、代码等10个维度,超过OpenAI的GPT-4。

此外,Haiku模型更注重效率,能以3秒时间阅读一份10,000 tokens的论文;Sonnet比之前的Claude 2/2.1版本更智能,适用于知识检索等任务。

这三个模型目前都支持20万上下文窗口。Anthropic表示,它们也支持100万上下文,但由于需要消耗巨大AI算力,只提供给特定用户。

目前,用户可免费使用Claude 3 Sonnet模型(https://claude.ai/chats);如果想使用最强大的Opus 版本需要开通会员;Haiku 模型即将推出。

文生图平台ideogram获8000万美元,并发布1.0版本

20240304

文生图平台ideogram.ai在官网宣布获得8000万美元(约5.7亿元)A轮融资。本次由Andreessen Horowitz领投,Index Ventures、Redpoint Ventures等跟投。

同时ideogram.ai发布了1.0版本,根据其评估报告显示,在图像生成的细节、彩色、连贯性、文本语义理解等维度,超过了OpenAI的DALL·E 3和Midjourney V6。

目前,用户可以免费试用1.0版本,每天可生成100张图像,支持中文;如果开通每月16美元的会员,可以无限量生成图像。

https://mp.weixin.qq.com/s/rrxeEtzPL2vT_GlWcizq4w

一张草图直接生成视频游戏,谷歌推出生成交互大模型-Genie

20240304

谷歌DeepMind的研究人员推出了,首个无需数据标记、无监督训练的生成交互模型——Generative Interactive Environments,简称“Genie”。

Genie有110亿参数,可以根据图像、真实照片甚至草图,就能生成各种可控制动作的视频游戏。Genie之所以有如此神奇功能,主要使用了3万小时,6800万段的游戏视频进行了大规模训练。

论文地址:https://arxiv.org/abs/2402.15391

项目地址:https://sites.google.com/view/genie-2024/home

Genie的核心架构用了ST-Transformer(时空变换器)。这是一种结合了Transformer模型的自注意力机制与时空数据的特性,以有效处理视频、多传感器时间序列、交通流量等时空数据。

https://mp.weixin.qq.com/s/u1YQkFw1LG604V8DZMSugA

Figure AI获48亿元融资,并与OpenAI一起开发AGI机器人

20240301

3月1日,著名商业媒体PR Newswire消息,开发通用人形机器人厂商Figure AI宣布获得6.75亿美元(约48亿元)B论融资,估值达到26亿美元。

本次由微软、OpenAI创业基金、英伟达、贝索斯、英特尔等联合投资。在巨额融资的帮助下,将加速Figure产品的商业部署进程。

此外,Figure与OpenAI达成了技术合作,借助其GPT系列大模型增强人形机器人的语言、推理以及理解能力等,一起加速AGI机器人研发和商业应用进程。

公开资料显示,Figure创立于2021年,核心团队来自波士顿动力、特斯拉、谷歌 DeepMind、Archer Aviation等全球顶级AI与实体机器人研究团队。曾在2023年4月19日,获得7000万美元A论融资。

产品方面,Figure开发了一款具备自主行走的实体机器人“01”,对标的是特斯拉的Optimus。

https://mp.weixin.qq.com/s/rrxeEtzPL2vT_GlWcizq4w

比Sora惊艳!文本生成超25秒视频,带背景音乐、转场等效果

20240229

2月29日,著名AI平台Lightricks在官网宣布,推出生成式AI电影制作平台—LTX Studio。

据悉,用户只需要输入文本就能生成超25秒的微电影视频,同时可对镜头切换、角色、场景一致性、摄像机、灯光等进行可视化精准控制。

目前,LTX Studio支持免费申请试用,3月27日将开启第一批测试。

https://mp.weixin.qq.com/s/x3mul2goPGPA0YhXLPkNvA

ChatGPT编程时代来啦,GitHub Copilot Enterprise正式发布!

20240228

2月28日,全球最大开源平台之一GitHub在官网宣布——GitHub Copilot Enterprise正式全面发布。

GitHub Copilot Enterprise核心模块之一GitHub Copilot,是一款基于OpenAI的GPT-4模型,并结合自身积累十多年真实、安全可靠的代码数据开发而成,开发人员通过文本提示就能获取、审核、扩展代码等功能。

使用地址:https://github.com/features/copilot/plans

目前,GitHub Copilot Enterprise每月39美元。

https://mp.weixin.qq.com/s/kR8d4qWDwj_qd5eCcmatmQ

【LWM】与Sora一样能生成视频、图像,还能一次解读100万数据!

20240227

加州大学伯克利分校的研究人员开源了一种训练数据更多、理解能力更强的基础模型——大世界模型(Large World Model,简称“LWM”)。

LWM是一种通用的多模态自回归模型,与前不久谷歌发布的Gemini 1.5一样,一次性可精准解答100万tokens的视频、文本,例如,LWM可以正确回答1小时YouTube视频中包含500多个视频片段的问题。

开源地址:https://github.com/LargeWorldModel/LWM

论文地址:https://arxiv.org/abs/2402.08268

huggingface:https://huggingface.co/LargeWorldModel

LWM的核心技术是通过Ring Attention(环形注意力)在长序列上进行扩展训练,并使用Books3 数据集从32000扩展到100万标记,而无需消耗额外的内存、算力并降低计算复杂度。

https://mp.weixin.qq.com/s/jxrF932qxqNhIqQazD7f9Q

微软与OpenAI竞争对手Mistral AI,达成技术合作

20240227

2月27日,微软在官网宣布,与开源大模型平台Mistral AI达成技术合作。

本次合作主要有3个重点:
1)微软将通过 Azure云服务为Mistral AI提供基础AI算力,帮助其加速模型训练和开发;
2)微软通过Azure云服务为客户提供Mistral AI的基础大模型,除了OpenAI的GPT系列模型之外,用户有更多选择;
3)一起合作开发大模型,为客户提供部署、微调等服务。

今天,Mistral AI还在官网发布了最新旗舰大模型Mistral Large,在MMLU、HellaSwag、Wino Grande等主流测试平台中,其性能超过Claude 2、Gemini Pro 1.0、GPT 3.5 和 LLaMA 2 70B,仅次于GPT-4。

资料显示,Mistral AI创立于2023年,种子轮便获得1.05亿欧元巨额融资。其三位联合创始人Timothée Lacroix 、Guillaume Lample和Arthur Mensch,拥有大厂履历和知名项目的成功经验同时也是大学校友,是大模型领域的顶尖人才。

Timothée和Guillaume此前曾在 Facebook 母公司 Meta Platforms的AI研究部门工作。在那里,Guillaume领导了Meta最先进的大型语言模型LLaMA的开发,这也是目前类ChatGPT开源领域影响力最大、受众范围最广的开源项目之一。
Arthur曾在谷歌的 AI 研究实验室DeepMind工作。

OpenAI推出“Meta-Prompting”,显著提升GPT-4等模型内容准确性

20240226

OpenAI、斯坦福大学的研究人员推出了一个创新大模型增强框架——Meta-ProMetating(简称“Meta”)。

Meta可增强GPT-4、PaLM和LLaMa等模型的性能,使生成的内容更加精准、安全可靠。

其技术原理也很简单明确,通过将模型复杂的任务或问题分解为更小、可管理的子任务,并将其分配给功能更强的专家模型来进行指导。

而META采用了一种可以跨特定任务的通用高层次指导,打造了一个集中协调和多个专家模型于一体的创新框架,从而实现任务的分解和协同解决,主要由指挥模型、专家模型、沟通协调等模块组成。

指挥和专家模型

当大语言模型收到一个内容查询时,指挥模型负责生成一个消息历史,其中包含来自各种专家模型的回答。

指挥模型首先根据查询选择适当的专家模型,并为每个特定查询制定具体的指令。然后,将这些指令传递给相应的专家模型,并监督和协调它们之间的通信和合作。指挥模型还运用自身的批判性思维、推理和验证能力来完善和验证最终结果。

而每个专家模型都有丰富的任务实例,可根据指挥为每个特定查询选择的专业知识和信息生成更准确地输出。

专家模型通过接收来自指挥模型的指令,并根据这些指令执行特定的子任务。通过将复杂任务分解为较小、可管理的子任务,专家模型能够更好地处理并生成准确、一致的回答。

上下文选择

该模块负责为每个专家模型提供动态的上下文选择。在处理复杂文本任务时,不同的上下文会引入新的视角和信息,从而丰富模型的知识和理解。

上下文选择模块可根据指挥模型的指令和当前任务的要求,选择适当的上下文信息,并将其传递给相应的专家模型。这种动态的上下文选择使得专家模型能够更好地理解和解决复杂任务。

为了保证输出内容的准确性,META还内置了批判和验证模块,通过使用逻辑推理、常识知识和验证技术来评估和验证专家模型的指导输出内容。

评估模块会对每个专家模型生成的回答进行验证,并将验证结果反馈给指挥模型。指挥模型再根据这些反馈进行调整和修正并进行自适应学习,以生成更准确和可靠的最终答案。

https://mp.weixin.qq.com/s/hF9Q1hv6Au90uiiOlamlLw

SORA(文生视频模型)

1.Sora 项目负责人
Sora 项目负责人两个23年毕业大学生,BILL和TIM。BILL毕业于麻省理工大学在META、英伟达、Adobe公司实习;TIM在META、英伟达、Google实习,摄影作品多次获美国地理自然最佳摄影奖

谷歌发布最强大模型Gemma,性能碾压Llama 2

刚刚,谷歌宣布推出了一款新的 AI 语言模型系列 —— Gemma。这个系列模型不仅免费、开源,而且采用了与谷歌更为强大的 Gemini 模型类似的技术。不同于 Gemini,Gemma 模型可以在个人电脑上本地运行,这是自 OpenAI 的 ChatGPT 在 2022 年引发 AI 聊天机器人热潮以来,谷歌首次发布的重要开源 LLM。

官网介绍:https://blog.google/technology/developers/gemma-open-models/

实际上,Gemma 的推出似乎是谷歌为了与 Meta 竞争而做出的举措。自去年二月以来,Meta 通过发布开放权重模型(如 LLaMA 和 Llama 2)引起了广泛关注。这种做法与 OpenAI 的 GPT-4 Turbo 相反,GPT-4 Turbo 仅通过 ChatGPT 应用程序和云 API 提供,不能在本地运行。路透社的一份报告侧重于与 Meta 的竞争,并推测谷歌希望通过这一举措吸引更多开发者使用其 Vertex AI 云平台。

有关性能、数据集组成和建模方法的详细信息,请参阅技术报告:

https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf

用户可以通过以下方式使用 Gemma:

https://ai.google.dev/gemma/docs/get_started
https://www.kaggle.com/models/google/gemma/code
http://huggingface.co/google
https://github.com/google/maxtext
https://github.com/NVIDIA/GenerativeAIExamples/tree/main/models/Gemma
https://github.com/NVIDIA/TensorRT-LLM

在技术优化方面,谷歌与 NVIDIA 展开了合作,特别是在 NVIDIA 的 TensorRT-LLM(一个专门为 LLM 推理设计的库) 上实现了加速。这种合作使得 Gemma 能够更好地融入 NVIDIA 的产品生态,为使用者提供更快的处理速度和更高的效率。此外,Gemma 还可以在 NVIDIA AI 企业版中进行进一步的微调,这一点对于希望根据特定需求优化模型表现的开发者而言,是一个重要的优势。

目前看 Gemma 的竞争对手主要有 Meta 的开源 LLM Llama 2、Mistral AI 的 7B 模型、Deci 的 DecilLM 和 Microsoft 的 Phi-2 等小型生成式 AI 模型。

AI初创公司月之暗面完成超10亿美金融资

AI 初创公司月之暗面(Moonshot AI)最近完成了一轮超过 10 亿美金的融资,投资方包括红杉中国、小红书、美团和阿里,老股东也进行了跟投。这一轮融资使月之暗面的估值达到了约 25 亿美金,成为国内大模型领域的头部企业之一。这是自从 ChatGPT 引发全球热潮以来国内 AI 大模型公司获得的单轮最大金额融资。

月之暗面成立于 2023 年 3 月,迅速成为大模型领域的重要参与者。其核心团队成员曾参与 Google Gemini、Google Bard、盘古 NLP 和悟道等多个大模型项目的研发工作,拥有多年大模型研究和开发经验。目前,公司团队规模已超过 80 人。

公司创始人杨植麟是 90 后学霸,毕业于清华大学计算机系,师从唐杰教授,之后获得卡内基梅隆大学计算机博士学位,师从苹果公司现任 AI 负责人、深度学习奠基人之一 Ruslan Salakhutdinov,曾在 Facebook AI Research, Google Brain 从事自然语言处理研究,获 DREAM9 全球癌症预测大赛第一名,阿里巴巴天池大数据竞赛全球第二名,2017 Nvidia 先锋研究奖。于 ICLR、NIPS、ICML、KDD、ACL 等顶级 AI 会议发表论文二十余篇;在所有六个主流语言建模数据集保持世界第一名(State-of-the-art)。

2023 年 6 月,科技媒体 The Information 将杨植麟列为 “中国 OpenAI” 的五大候选人之一,表明了他在业界得到了高度认可,其余四位为 MiniMax、智谱 AI、光年之外以及澜舟科技。

自成立以来,月之暗面在短短不到一年的时间里,已经完成了从通用大模型到上层应用的全面布局。公司已经训练了千亿级别的自研通用大模型,并在 2023 年 10 月推出了面向 C 端的 Kimi 智能助手,这是公司首次尝试 To C 超级应用。

Kimi 智能助手支持 20 万汉字的长文本输入,主打无损记忆。“长文本(Long Context)” 是月之暗面当前主打的技术之一,这来源于团队希望突破大模型的落地瓶颈 —— 大模型的智慧之所以能 “涌现”,主要是因为通过扩大参数规模,突破到了千亿级别。

11 月,公司宣布其 Kimi Chat 聊天机器人面向全社会开放服务,用户可通过官网体验。
https://kimi.moonshot.cn/

https://mp.weixin.qq.com/s/TSTzjR7uI4NsWePlMpe8pQ

Meta发布V-JEPA模型,能理解和模拟物理世界

继去年推出 I-JEPA 之后,Meta 现在又带来了 V-JEPA,这是一种通过观看视频教会机器理解和建模物理世界的方法,这加快了向 Yann LeCun 所设想的高级机器智能进军的步伐。

论文链接:https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/

Meta 副总裁兼首席 AI 科学家 Yann LeCun 表示:“V-JEPA 让我们更接近于实现让机器具备对世界的深入理解,进而实现更加广泛的推理与规划能力。” 这番话再次强调了提高机器智能的宏大目标 —— 仿照人类学习过程,构建世界内在模型,以便于学习、适应,并在复杂的任务中进行有效规划。

什么是 V-JEPA?
V-JEPA 是一种视觉模型,它通过预测视频中的特征来进行训练,这种方法与传统依赖预先训练好的图像编码器、文本或人工注释的机器学习方法不同。V-JEPA 能够直接从视频数据中学习,无需外部的监督。

https://mp.weixin.qq.com/s/Tzz4gEE7x-mAKOp4-R55HA

LangChain完成2500万美元融资,并正式推出LLMOps产品LangSmith

致力于通过其开源框架帮助开发 LLM 应用的初创公司 LangChain 宣布,完成由红杉资本领投的 2500 万美元 A 轮融资,同时还宣布,即将正式推出首款付费的 LLMOps 产品 LangSmith。

LangSmith 被设计为一个一体化平台,它使开发者能够加速他们的 LLM 应用开发流程,包含了从开发、测试到部署及监控的整个项目生命周期。该产品去年 7 月已经启动了封闭测试,并据公司所说,目前每月有数千家企业在使用它。

通过其开源框架,LangChain 为开发者提供了一个迫切需要的编程套件,这套工具包含了一系列通用的最佳实践和可组合的构建模块,旨在帮助开发者构建由 LLM 驱动的应用。这个平台能够通过 API 接入不同的 LLM,将它们整合在一起,并与数据源及工具相连,以执行各种任务。从一个简单的副业项目起步,该项目迅速成长为超过 5000 个 LLM 应用的核心支撑,这些应用涵盖了内部应用、自主代理、游戏、聊天自动化等多个领域。

显然仅提供一个构建应用的工具包是不够的。在将 LLM 应用从开发推向生产的每个阶段,开发者都会遇到多个难题,而 LangSmith 这个新推出的付费解决方案正是为了解决这些问题。它赋予开发者调试、测试及监控 LLM 应用的能力。

https://mp.weixin.qq.com/s/y7FYCk2TpNFvyhMmu83XpA

挑战谷歌,OpenAI即将推出搜索服务

在微软的大力支持下,OpenAI 正在开发一款网络搜索产品,此举将使这家 AI 研究巨头与谷歌展开直接竞争。这项计划,融合了 Bing 的搜索技术,这是搜索引擎领域发展过程中的一个重要里程碑,凸显了 AI 在改变我们在线搜索体验方式中的重要地位。

原文链接:https://contxto.com/en/artificial-intelligence/openai-set-to-launch-web-search-service-challenging-googles-dominance/

https://mp.weixin.qq.com/s/4zKrDVyaesocEeMHzy2Smw

谷歌将Bard更名为Gemini,并推出Gemini Advanced

现在,你可以通过我们的 Pro 1.0 模型在超过 40 种语言和 230 多个国家与地区与 Gemini 对话。我们还推出了两项新服务 ——Gemini Advanced 和移动应用,让你更轻松地享受 Google AI 的强大功能。

原文链接:https://blog.google/products/gemini/bard-gemini-advanced-app/

https://mp.weixin.qq.com/s/8WJ_1dWaC4Qe2XOelu8HRA

  • 24
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值