大模型日报

资讯


研究


在Sora引爆视频生成时,Meta开始用Agent自动剪视频了,华人作者主导
贡献人:@刘奕龙


https://mp.weixin.qq.com/s/iKwy6VLQzLAsPWVPGOO53A
这几天,AI 视频领域异常地热闹,其中 OpenAI 推出的视频生成大模型 Sora 更是火出了圈。而在视频剪辑领域,AI 尤其是大模型赋能的 Agent 也开始大显身手。随着自然语言被用来处理与视频剪辑相关的任务,用户可以直接传达自己的意图,从而不需要手动操作。但目前来看,大多数视频剪辑工具仍然严重依赖手动操作,并且往往缺乏定制化的上下文帮助。因此,用户只能自己处理复杂的视频剪辑问题。关键在于如何设计一个可以充当协作者、并在剪辑过程中不断协助用户的视频剪辑工具?在本文中,来自多伦多大学、 Meta(Reality Labs Research)、加州大学圣迭戈分校的研究者提出利用大语言模型(LLM)的多功能语言能力来进行视频剪辑,并探讨了未来的视频剪辑范式,从而减少与手动视频剪辑过程的阻碍。    

大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩

贡献人:@刘奕龙
https://mp.weixin.qq.com/s/xKNNfvfLYWKQpwvuuKrVVw
本文中,来自北京大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究者提出了一个新的框架 LGM,即 Large Gaussian Model,实现了从单视角图片或文本输入只需 5 秒钟即可生成高分辨率高质量三维物体。目前,代码和模型权重均已开源。研究者还提供了一个在线 Demo 供大家试玩。    

GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况


贡献人:@刘奕龙
https://mp.weixin.qq.com/s/YpIDH0GV-DLnB2-ThGfaJg
推测解码(Speculative Decoding)是谷歌等机构在 2022 年发现的大模型推理加速方法。它可以在不损失生成效果前提下,获得 3 倍以上的加速比。GPT-4 泄密报告也提到 OpenAI 线上模型推理使用了它。针对如此妙的方法,香港理工大学、北京大学、MSRA以及阿里共同推出了一篇关于推测解码的综述, 帮助读者了解推测解码的前世今生和应用情况,值得一读。    

产业

10倍英伟达GPU:大模型专用芯片一夜成名,来自谷歌TPU创业团队


贡献人:@刘奕龙
https://mp.weixin.qq.com/s/2lEvK7Sh3aUSzh8FJf1-sg
我们知道,大模型到 GPT-3.5 这种千亿体量以后,训练和推理的算力就不是普通创业公司所能承担的了,人们用起来速度也会很慢。但自本周起,这种观念已成为历史。有名为 Groq的初创公司开发出一种机器学习处理器,据称在大语言模型任务上彻底击败了 GPU—— 比英伟达的 GPU 快 10 倍,而成本仅为 GPU 的 10%,只需要十分之一的电力。    

马斯克:Neuralink首位人类受试者已康复 可凭思维控制鼠标


贡献人:@刘奕龙
https://news.mydrivers.com/1/964/964321.htm
据媒体报道,特斯拉CEO马斯克在社交媒体平台X上透露,脑机接口公司Neuralink的首位人类受试者“似乎已完全康复,并能仅凭思维在电脑屏幕上移动鼠标”。Neuralink公司此前已在猴子身上进行了芯片植入实验,并得到美国食品和药物管理局的批准,正式开始了首次脑植入设备的临床试验。    

消息称社交平台x(原 Twitter)正与 Midjourney 就潜在合作伙伴关系进行谈判


贡献人:@刘奕龙
https://mspoweruser.com/x-fka-twitter-is-in-talks-with-midjourney-for-a-potential-partnership/
据报道,最近更名为 X的 Twitter 正在与人工智能图像生成平台 Midjourney 讨论潜在的合作伙伴关系DogeDesigner 在X上报道的这一消息表明,X正在探索增强其内容创作能力的新方法。Midjourney 的人工智能生成艺术平台允许用户根据文本提示创建独特的图像。    

推特


LeCun: 如果你的目标是训练一个用于识别或规划的世界模型,使用像素级预测是一个可怕的想法


贡献人:@Angela Chen Hanzhe 2022


https://x.com/ylecun/status/1759486703696318935?s=20
将世界建模为通过生成像素进行行动,就像大体上被放弃的“通过合成进行分析”这一想法一样,是浪费且注定失败的。
几十年前,在机器学习(ML)中有一个关于生成方法与判别方法在分类上相对优势的大辩论。学习理论家,如Vapnik,反对生成方法,指出训练一个生成模型比分类(从样本复杂性的角度看)要困难得多。
尽管如此,计算机视觉中的一个整体社区却主张识别应该通过从解释性潜变量生成像素来工作。在推理时,人们会推断生成观察到的像素的潜变量的配置。推理方法将使用优化:例如,使用一个物体的3D模型并尝试找到再现图像的姿态参数。这从来没有真正成功过,而且非常慢。
后来,一些人转向了贝叶斯信仰,并尝试使用贝叶斯推理来处理潜在变量(例如,使用变分近似和/或采样)。在某一时刻,当非参数贝叶斯和潜在狄利克雷分配在文本建模中成为热潮时,一些人英勇地尝试将其应用于从图像中识别物体。
这是彻头彻尾的失败 <<<
如果你的目标是训练一个用于识别或规划的世界模型,使用像素级预测是一个可怕的想法。
文本的生成恰好有效,因为文本是离散的,具有有限数量的符号。在这样的设置中处理预测中的不确定性很容易。处理高维连续感官输入中的预测不确定性简直是不可行的。这就是为什么针对感官输入的生成模型注定失败的原因。    

Gemini1.5 Pro在几秒钟内将一部完整的电影转到了摘要


贡献人:@Angela Chen Hanzhe 2022


https://x.com/mattshumer_/status/1759737197710704939?s=20
谷歌没在开玩笑。
Gemini 1.5 Pro 刚刚在几秒钟内直接从一部完整的电影转到了摘要。
没有转录,没有中间步骤。就是视觉标记 -> 摘要。
接下来,验证干草堆测试。    

从模型到复合 AI 系统的转变


贡献人:@Angela Chen Hanzhe 2022


https://x.com/matei_zaharia/status/1759614283066089684?s=20
AI 中的一个有趣趋势:最佳结果越来越多地是通过复合系统获得的,而不是单一模型。
AlphaCode、ChatGPT+、Gemini 就是例子。
在这篇文章中,我们讨论了这是为什么,以及关于设计和优化这类系统的新兴研究。    

论文


语言模型作为科学导师


贡献人:@林李挚


链接:http://arxiv.org/abs/2402.11111v1
近期,NLP在训练具有强大科学问题解决能力的语言模型(LMs)方面取得了令人振奋的进展。然而,模型发展并未专注于LM在科学领域的实际用例,包括需要处理长篇科学文档的教育应用。为解决这一问题,我们引入了TutorEval和TutorChat。TutorEval是一个多样化的问答基准,包括针对STEM教材长篇章节的问题,由专家编写。TutorEval有助于衡量LM作为科学助手的实际可用性,它是首个结合长篇背景、自由生成和多学科科学知识的基准。此外,我们发现,将基础模型与现有对话数据集微调会导致TutorEval表现不佳。因此,我们创建了TutorChat,一个包含80,000个关于教科书的长篇虚拟对话的数据集。我们使用TutorChat对带有7B和34B参数的Llemma模型进行微调。这些数学专业的LM导师具有32K-token的上下文窗口,在TutorEval上表现出色,在GSM8K和数学方面也表现强劲。我们的数据集基于开源材料构建,我们发布了我们的模型、数据和评估结果。    

AnyGPT: 统一的多模态大语言模型与离散序列建模


贡献人:@林李挚


链接:http://arxiv.org/abs/2402.12226v1
我们介绍了 AnyGPT,这是一种任意-任意多模态语言模型,利用离散表示统一处理各种模态,包括语音、文本、图像和音乐。AnyGPT 可以稳定地训练,而无需对当前大语言模型(LLM)架构或训练范例进行任何修改。相反,它完全依赖于数据级预处理,促进了新模态与LLM的无缝集成,类似于加入新语言。我们为多模态对齐预训练构建了一个多模态文本为中心的数据集。利用生成模型,我们合成了第一个大规模任意-任意多模态指导数据集。它包括了108k个多轮对话样本,巧妙地交织了各种模态,从而使模型能够处理任意组合的多模态输入和输出。实验证明,AnyGPT能够促进任意-任意多模态对话,同时在各种模态上实现与专门模型相当的性能,证明了离散表示能够有效便捷地统一语言模型中的多种模态。演示请访问 https://junzhan2000.github.io/AnyGPT.github.io/    

Vision-Flan:在视觉指导微调中扩展人工标记任务


贡献人:@林李挚


链接:http://arxiv.org/abs/2402.11690v1
尽管视觉语言模型(VLMs)在作为多功能视觉助手方面具有显着能力,但现有VLM框架中仍存在两个重要挑战:(1)在预训练和视觉指导微调中缺乏任务多样性,以及(2)GPT-4合成指导数据中存在的注释错误和偏见。这两个挑战导致了诸如泛化性不佳、幻觉和灾难性遗忘等问题。为解决这些挑战,我们构建了迄今为止最多样化的公开可用的视觉指导微调数据集Vision-Flan,包括来自学术数据集的187个多样化任务和1,664,261个实例,每个任务都附有专家撰写的指导。此外,我们提出了一个两阶段指导微调框架,在该框架中,VLM首先在Vision-Flan上微调,然后在GPT-4合成数据上进一步微调。我们发现这种两阶段微调框架在各种多模态评估基准测试中显著优于传统的单阶段视觉指导微调框架,并取得了最先进的性能。最后,我们进行了深入分析以了解视觉指导微调,我们的研究结果表明:(1)GPT-4合成数据并没有显著提升VLM的能力,而是调节了模型对人类首选格式的响应;(2)微量(例如1,000)的GPT-4合成数据可以有效地将VLM的响应与人类偏好对齐;(3)视觉指导微调主要有助于大型语言模型(LLMs)理解视觉特征。  

 
产品


repeto.ai


贡献人:@刘子嘉


https://repeto.ai/
这个产品只需用户上传文件,就可以借助 AI 实现与文档的聊天,同时帮助用户做好笔记,生成交互式测验。


mindware


贡献人:@刘子嘉


https://mindware.xyz/
Mindware  提供了一个 API 网关服务,这个服务的主要目的是简化人工智能(AI)代理与互联网上各种API服务的集成过程。通过Mindware,开发者和企业可以更容易地将AI功能集成到他们的应用程序中,而无需处理复杂的编码和配置工作。简而言之,Mindware 是一个帮助开发者和企业更轻松地将AI技术融入到他们的产品和服务中的解决方案,它通过提供一个易于使用的接口和自动化工具,降低了技术门槛,加快了开发速度。

HuggingFace&Github


minbpe 


贡献人:@刘子嘉
https://github.com/karpathy/minbpe
 Byte Pair Encoding(BPE)是一种广泛用于大型语言模型(LLM)训练的子词分词算法。它在字节级别上操作,处理UTF-8编码的字符串,因此能够有效处理多种语言和脚本中的字符。BPE算法通过迭代地合并训练数据中最常见的字节对(或字符对),直到达到预定的词汇表大小。

Scalable Diffusion Models with Transformers (DiT)


贡献人:@刘子嘉
https://github.com/facebookresearch/DiT
 这个仓库包含了关于使用 Transformers 探索扩散模型(DiTs)的论文中的PyTorch模型定义、预训练权重以及训练/采样代码。

jepa


贡献人:@刘子嘉
https://github.com/facebookresearch/jepa
 V-JEPA模型通过被动观察VideoMix2M数据集中的视频像素进行训练,并生成通用的视觉表示,这些表示在下游视频和图像任务上表现良好,而无需调整模型参数。V-JEPA的预训练完全基于一个无监督的特征预测目标,不使用预训练的图像编码器、文本、负样本、人工注释或像素级重建。


投融资


人工智能发展不断向前,资本开始押注AI安全,多家人工智能安全公司完成早期融资|Antler创投周报


贡献人:@谭泽琪
https://mp.weixin.qq.com/s/xDHeUHyoW5PA1XiEp4YRVA
 近期,随着人工智能(AI)技术的快速发展,资本开始关注AI安全领域,多家相关公司完成了早期融资。AI时尚公司AI.Fashion获得360万美元种子轮融资,利用AI技术进行虚拟拍摄和设计。AI评估保障公司Armilla AI完成450万美元融资,专注于AI风险评估和保险方案。神经技术健康服务商Elemind获得1200万美元种子轮融资,专注于电子医学领域的脑电波监测技术。AI网络安全公司Clarity完成1600万美元融资,致力于检测和防范深度伪造内容。去中心化AI科技公司Flower Labs完成2000万美元A轮融资,推动联邦学习和去中心化机器学习。这些融资动态反映了AI安全和应用领域的活跃投资趋势。

中坚科技拟与兆新股份共同投资海外人工智能机器人公司


贡献人:@谭泽琪
https://wap.stockstar.com/detail/IG2024021900034023
 中坚科技与兆新股份计划共同投资约600万美元于海外人工智能机器人公司1X Holding AS,并在上海成立合资公司上海智氪机器人有限公司。中坚科技将出资306万美元,持股60%,兆新股份出资294万美元,持股40%。合资公司将作为1X Holding AS产品在中国内地的经销商,负责销售、售后服务及零部件采购。此次投资旨在拓展智能机器人领域,提升双方业务协同性和增长潜力。


学习


目标完备性对于通用人工智能(AGI)就像图灵完备性一样


https://www.lesswrong.com/posts/iFdnb8FGRF4fquWnc/goal-completeness-is-like-turing-completeness-for-agi
作者认为,目标完备的AI能够优化任何其他AI的目标,就像通用图灵机(UTM)能够运行任何图灵机的计算一样。文章指出,随着技术的发展,我们正逐渐从特定电路设计转向图灵完备的芯片,这表明了计算的普遍性。作者预测,随着AI算法在优化能力上的不断进步,它们将不可避免地趋向于目标完备性,即能够有效地实现任何给定目标。这种趋势类似于电子行业的架构收敛,其中图灵完备的硬件成为了执行信息处理指令的基础。文章还讨论了目标完备性在AI发展中的重要性,以及如何通过设计来减轻潜在的风险。

LLaMA 2 - 你所需要的一切资源


贡献人:@谭泽琪
https://mp.weixin.qq.com/s/Igq_6tCOoKdWzan6XD4nig
 LLaMA 2 是 Meta 开发的下一代大型语言模型(LLM),在2万亿个标记上训练,提供7B、13B和70B三种大小的模型。它支持商业使用,且默认使用4096个前后文本视野。LLaMA 2 通过人类反馈强化学习(RLHF)技术进行调优,性能在多个基准测试中表现优异。用户可以通过Hugging Face Hub等平台测试和部署LLaMA 2,也可以通过PEFT等技术进行微调。Meta提供了详细的提示词模板和训练资源,帮助用户高效交互和自定义模型。此外,LLaMA 2 可以在本地或云平台上部署,如AWS、Google Cloud和Microsoft Azure。

实机演示Groq公司每秒500个tokens输出的450亿参数的Mixtral 8×7B模型


贡献人:@谭泽琪
https://www.datalearner.com/blog/1051708338106648
 Groq公司推出了目前可能是全球最快的大语言模型推理服务,其Mixtral 8×7B模型每秒能输出约500个tokens,显著领先于其他厂商。Groq是一家芯片公司,由谷歌前员工Jonathan Ross创立,专注于开发加速大语言模型推理的Language Processing Unit(LPU)。Groq的LPU技术使得其大模型服务在速度和成本效率上具有显著优势,尤其是在处理长文本和复杂逻辑推理任务时表现出色。这一技术突破有望推动AI应用的快速发展,特别是在需要快速响应的场景中。


声明


本文档仅供学习交流使用,版权归原作者所有,若涉侵权,请联系Jack Jin 15101136166

  • 19
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值