每日一看大模型新闻（2023.12.05）阿里云开源「通义千问」系列模型 Qwen-72B ；不到1000行代码，PyTorch团队让Llama 7B提速10倍；大模型版“5年高考3年模拟”来了！

最新推荐文章于 2024-07-07 19:25:40 发布

超爱玩大模型

最新推荐文章于 2024-07-07 19:25:40 发布

阅读量844

点赞数 16

文章标签：人工智能自然语言处理 prompt 数据分析语言模型 chatgpt embedding

本文链接：https://blog.csdn.net/liuxiuxiu3/article/details/135829076

版权

本文报道了2023年12月5日的科技新闻，涉及字节跳动与中科大合作的高分辨率多模态模型DocPedia、乐聚的开源人形机器人KUAVO、Runway和Getty的AI视频模型RGM，以及阿里云开源的Qwen-72B模型。此外，技术更新包括PyTorch团队加速Llama7B、IBM的1000量子比特芯片和大模型在数学领域的进展。

摘要由CSDN通过智能技术生成

1.产品发布

1.1突破分辨率极限，字节联合中科大提出多模态文档大模型

发布日期：2023.12.05

突破分辨率极限，字节联合中科大提出多模态文档大模型 | 量子位

主要内容：字节跳动和中国科学技术大学合作研究的DocPedia模型。DocPedia是一个高分辨率多模态文档大模型，可以准确识别出图像里的信息，结合用户需求调用自己的知识库来回答问题。该模型分辨率可达2560×2560，是目前业内先进多模态大模型中分辨率最高的。作者团队提出了一种新的训练方式，从频域出发解决了现有模型不能解析高分辨文档图像的短板。在各项测试基准上，DocPedia表现出了不错的提升。

论文地址：https://arxiv.org/pdf/2311.11810.pdf

1.2乐聚发布首款人形机器人「KUAVO」搭载开源鸿蒙系统

发布日期：2023.12.05

https://www.youtube.com/watch?v=Rx1h59y01GY

主要内容：KUAVO是一款大尺寸的高动态人形机器人，重量约45kg，全身拥有26个自由度，可以完成复杂地形自主行走、持续连续跳跃等系列高难度运动。步速最高可达4.6km/h，快速连续跳跃高度超过20CM，是国内首款可跳跃、可适应多地形行走的开源鸿蒙人形机器人。乐聚CEO常琳表示，人形机器人即将抵达商业化落地的奇点，KUAVO将在教育、医疗物流、家庭服务等行业实现落地应用。人形机器人的商业化分为三个阶段：第一阶段将以to B教育、科研为主；第二阶段，人形机器人将进入行业场景；第三阶段，机器人全面进入生产生活。

1.3 Runway与Getty合作推出生成式AI视频模型RGM

发布日期：2023.12.05

Runway和Getty宣布合作开发新生成式AI视频模型RGM (msn.cn)

主要内容：Runway ML与Getty Images共同开发生成式AI视频模型RGM，突破边界，为视觉媒体行业提供专业、创意丰富的内容。RGM基础模型允许企业使用自有数据集微调，提升创意能力，满足不同行业的定制化需求。合作强化了Runway在AI视频领域的领导地位，预计RGM将在未来几个月内商业化使用。

1.4阿里云开源「通义千问」系列模型 Qwen-72B

发布日期：2023.12.05

LLM/通义千问开源Qwen-72B与Qwen-72B-Chat - 知乎

主要内容：通义千问Qwen-72B是阿里云研发的720亿参数规模的模型。基于Transformer大语言模型, 最高支持32K上下文长度，词表为15万，在3万亿tokens超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。同时在Qwen-72B的基础上使用对齐机制打造了基于大语言模型的AI助手Qwen-72B-Chat。

paper地址：https://arxiv.org/pdf/2309.16609.pdf

code地址：https://github.com/orgs/QwenLM/repositories

2.技术更新

2.1不到1000行代码，PyTorch团队让Llama 7B提速10倍

发布日期：2023.12.05

不到1000行代码，PyTorch团队让Llama 7B提速10倍

主要内容：生成式AI发展迅速，文本生成领域尤为热门。为了提高效果，许多开源项目不断进行优化。PyTorch作为机器学习社区中最受欢迎的框架之一，也自然不会错过这一机遇。为此，PyTorch团队专门设置了系列博客，介绍如何使用纯原生PyTorch加速生成式AI模型。在第一篇博客中，他们展示了仅使用纯原生PyTorch重写Segment Anything（SAM）模型，比原始实现快8倍。最近，他们又发布了新的内容，介绍如何加快LLM推理。通过一系列优化方法，包括Torch.compile、GPU量化、Speculative Decoding和张量并行，他们最终实现了比基线快10倍的推理速度，同时保持了高准确率。

代码地址：https://github.com/pytorch-labs/gpt-fast

2.2 IBM发布首款1000量子比特量子芯片

发布日期：2023.12.05

IBM发布首款1000量子比特量子芯片_该公司_子位_物理量

主要内容：IBM发布了超过1000个量子比特的量子计算机Condor，并计划专注于提高机器的耐用性，而不是扩大规模。该公司推出了一款名为Heron的芯片，错误率创下了历史新低。物理学家对量子低密度奇偶校验(qLDPC)的纠错方案感到兴奋，IBM将专注于制造能够在400个左右的物理量子位中容纳几个经过qldpc校正的量子位的芯片，然后将这些芯片联网。问题在于，qLDPC技术要求每个量子比特至少直接连接到其他6个量子比特，而典型的超导芯片中每个量子比特只与两三个相邻的量子比特相连。但IBM有一个计划，将在其量子芯片的设计上增加一个层，以允许qLDPC方案所需的额外连接。

2.3大模型版“5年高考3年模拟”来了！6141道数学题，还是多模态的那种｜微软&UCLA&UW联合出品

发布日期：2023.12.05

大模型版“5年高考3年模拟”来了！6141道数学题，还是多模态的那种｜微软&UCLA&UW联合出品

主要内容：微软、加州大学洛杉矶分校和华盛顿大学联合推出全新多模态数学推理基准数据集——MathVista，包含6141个问题，旨在评估大模型在视觉场景下的数学推理能力。最先进的GPT-4V模型在MathVista上的准确率为49.9%，与人类表现还有10.4%的差距。该数据集还可用于训练和优化大模型，推动AGI发展。大模型的数学推理能力将成为其核心能力之一，重要性将越来越凸显。

项目地址：MathVista: Evaluating Math Reasoning in Visual Contexts

HF数据集：https://huggingface.co/datasets/AI4Math/MathVista

数据可视化：MathVista: Evaluating Math Reasoning in Visual Contexts

Leaderboard：MathVista: Evaluating Math Reasoning in Visual Contexts

2.4大模型3D可视化工作原理项目发布

发布日期：2023.12.05

矩阵模拟！Transformer大模型3D可视化，GPT-3、Nano-GPT每一层清晰可见-腾讯云开发者社区-腾讯云

主要内容：开发者Brendan Bycroft在社交平台X上发布了他的大模型工作原理的3D可视化项目。该项目使用3D渲染展示了运行单个标记推理的所有步骤，并提供了步骤的演练指南和一些可交互的元素。通过可视化，可以展示计算发生的位置、复杂性以及张量和权重的相对大小。该项目演示了GPT-2、GPT-3和轻量级的NanoGPT等模型。

项目地址：LLM Visualization

2.5新架构Mamba（曼巴）出现，挑战Transformer

发布日期：2023.12.05

https://twitter.com/tri_dao/status/1731728602230890895

主要内容：近日，卡内基梅隆大学（CMU）和普林斯顿大学的研究者提出了一种新的架构——Mamba（曼巴），用以解决Transformer在长序列上的计算效率低下问题。Mamba是一种状态空间模型（SSM），具有快速推理和序列长度的线性缩放优势，据称吞吐量比Transformer高5倍，并且在真实数据上处理长达百万长度的序列时性能有所提升。Mamba作为一个通用的序列模型，已经在语言、音频和基因组学等多个领域实现了最先进的性能。在语言建模方面，Mamba-3B模型在预训练和下游评估方面都优于同等大小的Transformer，并且其性能甚至可与两倍大小的Transformer相媲美。

论文地址：

https://arxiv.org/abs/2312.00752

代码地址：

https://github.com/state-spaces/mamba

3.商业动态

3.1 Meta英特尔IBM等50多家单位成立AI联盟

发布日期：2023.12.05

AI Alliance Launches as an International Community of Leading Technology Developers, Researchers, and Adopters Collaborating Together to Advance Open, Safe, Responsible AI

主要内容：IBM在其官网上宣布与Meta合作成立了AI联盟（AI Alliance），目前有50多家企业或机构加入，包括大学和科研机构、框架平台开发者、AI基准测试创建者、基础设施提供商、开放模型创建者等。该联盟的目的是打造开放、安全、负责任的AI，计划启动和加强满足这些目的的项目。这些项目包括开发和部署基准和评估标准、工具和其他资源；负责任地推进具有多种模式的开放基础模型生态系统；通过促进关键支持软件技术的贡献和采用，培育充满活力的AI硬件加速器生态系统；支持全球AI技能建设和探索性研究；开发教育内容和资源；发起倡议，鼓励以安全和有益的方式开放AI发展，并举办活动来探索AI用例。据官方数据，AI联盟目前汇集了每年超过800亿美元的研发资金，研究机构的学生超过40万人，公司员工超过100万人。

AI联盟主页：AI Alliance (thealliance.ai)

3.2美图发布AI视觉大模型4.0：主打AI设计与AI视频

发布日期：2023.12.05

美图发布AI视觉大模型4.0：主打AI设计与AI视频｜AI前哨_凤凰网

主要内容：美图创造力大会（MCC）将于12月5-6日在厦门举行。美图公司发布了MiracleVision 4.0版本，主打AI设计和AI视频。MiracleVision 4.0新增了矢量图形、文字特效、智能分层和智能排版等能力，并上线了视觉模型商店。在AI视频方面，新增了文生视频、图生视频、视频运镜和视频生视频等能力。MiracleVision 4.0将陆续上线至美图旗下产品。此外，美图公司宣布WHEE移动端正式上线，并对外开放MiracleVision商业API。美图还与Weitu AI公司合作，进行视觉大模型与大语言模型的深度融合。发布的《2023年度AI设计实践报告》显示，个人使用AI设计工具的普及速度超预期，但仍有用户因收费、操作、效果等问题放弃使用。企业层面的普及度较低，仅有8.4%的企业使用AI工具。互联网行业对AI设计工具最为热情，其次是食品饮料、鞋履服饰和美容美妆等行业。海外AI工具的使用率高于国产工具，但国产工具具有潜力，因为门槛低、支持中文和亚洲审美。