每日一看大模型新闻（2023.12.06）秒杀700亿Llama 2！最新国产大模型亮相；大模型免微调解锁对话能力，RLHF没必要了！；马斯克旗下xAI公司计划融资10亿美元，挑战ChatGPT

最新推荐文章于 2024-11-05 13:18:20 发布

超爱玩大模型

最新推荐文章于 2024-11-05 13:18:20 发布

阅读量598

点赞数 16

文章标签： llama prompt 自然语言处理人工智能语言模型 chatgpt embedding

本文链接：https://blog.csdn.net/liuxiuxiu3/article/details/135847029

版权

1.产品发布

1.1秒杀700亿Llama 2！最新国产大模型亮相，无需申请即可免费商用

发布日期：2023.12.06

主要内容：国产大模型再出新选手：DeepSeek，参数670亿，在近20个中英文公开评测榜上超越700亿的Llama 2，推理、数学和编码能力突出，尤其在数学能力上已超越GPT-4。DeepSeek由深度求索公司开发，主打开源，提供70亿和670亿两个参数版本，每个版本含基础模型和指令微调模型，并已开放全面内测。DeepSeek采用与Llama相同的架构，预训练在2万亿个中英文token的数据集和AdamW优化器上进行，训练batch size和学习率等参数也与Llama不同。DeepSeek在数学和编码能力上表现出色，已引起技术同行关注。深度求索公司目标不止于大模型，而是AGI。

1.2 Meta：推出AI图像生成器Imagine

发布日期：2023.12.06

What’s New Across Our AI Experiences | Meta

主要内容：Meta推出了名为Imagine的AI图像生成器，目前在美国地区免费开放。Imagine是基于Meta的图像基础模型Emu构建的，该模型使用了11亿张来自Facebook和Instagram的公开图片进行训练。它可以根据文字提示生成图像，每次生成都会产生四张1280×1280像素的图像，可以以JPEG格式保存，并带有一个“Imagined with AI”水印位于图像的左下角。

1.3国家超算广州中心发布新一代国产超算系统

发布日期：2023.12.06

性能倍增！新一代国产超算系统“天河星逸”发布

主要内容：在2023年超算创新应用大会上，国家超算广州中心发布了新一代国产超级计算系统“天河星逸”。相较于“天河二号”，该系统在通用CPU计算能力、网络能力、存储能力以及应用服务能力等多方面实现了倍增。这将有助于满足日益增长的高性能计算、AI大模型训练以及大数据分析等多种应用场景的需求，并进一步提升该中心的多领域应用服务能力。

2.技术更新

2.1大模型免微调解锁对话能力，RLHF没必要了！一作上交大校友：节省大量成本和时间

发布日期：2023.12.06

大模型免微调解锁对话能力，RLHF没必要了！一作上交大校友：节省大量成本和时间

主要内容：该研究打破了传统的对齐微调方法SFT+RLHF的神话。新论文提出了一种名为URIAL的新方法，该方法可以在预训练完成后，通过提示工程引导出基础模型遵循指令的能力，从而节省大量算力资源和时间。研究团队通过对不同基础模型进行实验，验证了URIAL的有效性，并提出了免微调对齐法的评估基准Just-Eval-Instruct。该研究的成果有望促进AI助手的发展，并解锁基础模型的潜力。

论文：Re-Align | AI2

2.2苹果开源用于芯片设计的机器学习框架MLX

发布日期：2023.12.06

https://twitter.com/awnihannun/status/1732184443451019431?s=20

主要内容：苹果机器学习研究团队的Awni Hannun在社交平台X上发布了名为MLX的机器学习框架，专为苹果的Silicon芯片设计而成，目前已经开源。根据GitHub主页显示，MLX提供了Python API和C++ API，具备自动微分、自动矢量化和计算图优化等可组合函数转换功能。它采用惰性计算，动态构建计算图，支持多设备并统一内存。此外，苹果还开源了MLX Data，这是一个与框架无关的高效且灵活的数据加载包。

MLX开源地址：https://github.com/ml-explore/mlx

文档地址：MLX — MLX 0.0.9 documentation

2.3不到1000行代码，PyTorch团队让Llama 7B提速10倍

发布日期：2023.12.05

不到1000行代码，PyTorch团队让Llama 7B提速10倍

主要内容：生成式AI发展迅速，文本生成领域尤为热门。为了提高效果，许多开源项目不断进行优化。PyTorch作为机器学习社区中最受欢迎的框架之一，也自然不会错过这一机遇。为此，PyTorch团队专门设置了系列博客，介绍如何使用纯原生PyTorch加速生成式AI模型。在第一篇博客中，他们展示了仅使用纯原生PyTorch重写Segment Anything（SAM）模型，比原始实现快8倍。最近，他们又发布了新的内容，介绍如何加快LLM推理。通过一系列优化方法，包括Torch.compile、GPU量化、Speculative Decoding和张量并行，他们最终实现了比基线快10倍的推理速度，同时保持了高准确率。

代码地址：https://github.com/pytorch-labs/gpt-fast

3.商业动态

3.1百度腾讯等入股无问芯穹

发布日期：2023.12.06

【科技早报】百度、腾讯等入股大模型公司；智界第二款车型对标特斯拉Model Y_技术_合作_GoTo

主要内容：股权变更:2023年11月30日，无问芯穹智能科技股东变更，新增百度、腾讯、智谱AI等，注册资本增至152万人民币。无问芯穹专注于大模型推理优化，提供软硬件一体的自动化优化解决方案。成立于2023年，公司法定代表曾书霖，主要从事人工智能理论与算法软件开发及应用。

3.2高通：5G与AI融合创新，加速推动数字经济高质量发展

发布日期：2023.12.06

高通公司孟樸：5G与AI融合创新，加速推动数字经济高质量发展 | 雷峰网

主要内容：2023世界5G大会在河南省郑州市开幕，以“5G变革共绘未来”为主题。大会旨在推动5G演进创新，满足各领域对5G的需求，推动全球科技合作和产业生态建设。高通公司中国区董事长孟樸发表了关于“新一轮5G+AI创新浪潮”的演讲，强调5G与AI的协同发展将催生新的技术应用。他提到生成式AI在移动环境中的应用具有优势。此外，孟樸指出5G在各垂直领域已有许多应用，需要共同努力普及应用案例、解决痛点，推动数字化未来成为现实。他期待与合作伙伴共同推动5G和AI与行业融合创新，推动5G应用于各行各业的发展。

3.3英伟达黄仁勋罕见评价AI芯片领域对手华为

发布日期：2023.12.06

404-页面不存在

主要内容：英伟达创始人兼首席执行官黄仁勋表示，华为是英伟达“非常强大”的竞争对手之一。他补充道，华为已经成长为中国的芯片巨头，并在今年凭借一款先进的国产智能手机处理器重新成为人们关注的焦点。尽管美国政府对英伟达的芯片销售设置了壁垒，黄仁勋表示，中国市场占了英伟达总销售额的20%左右，其将继续“完美地”遵守贸易法规，并为中国市场提供一套符合美国政府最新规定的新产品。

3.4私有云算力供应商 CoreWeave 再融资

发布日期：2023.12.06

4个月估值飙至70亿，英伟达「亲儿子」CoreWeave再融资，营收两年翻70倍-36氪

主要内容：英伟达重注的私有云算力供应商CoreWeave又获得投资，估值高达70亿美元。该公司提供更具差异化的AI基础设施，以更低的价格提供更多配置。他们以英伟达H100 GPU作为抵押获得23亿美元贷款，又完成了两轮融资。CoreWeave宣称提供比主流运算力公司快35倍、成本低80%的优质运算力服务。他们从以太坊加密货币挖矿起家，转型为构建专门的云基础设施并围绕英伟达的芯片调整业务，逐渐从小办公室扩张成遍布全国的数据中心以应对不断膨胀的AI市场需求。他们的成功得到了顶级投资机构的认可，也表明在人工智能领域中创新的技术和优质的服务可以带来巨大的商业价值。

3.5马斯克旗下xAI公司计划融资10亿美元，挑战ChatGPT

发布日期：2023.12.06

马斯克新动作旗下公司xAI计划融资10亿美元_天天基金网

主要内容：xAI公司，由特斯拉和SpaceX首席执行官伊隆·马斯克创立，计划融资10亿美元。该公司已在11月完成首次股份出售，获得近1.35亿美元资金，同时与其他投资人签署协议购买剩余股票。公司的目标是与OpenAI等公司直接竞争，马斯克曾与OpenAI合作，但后来离开，如今他的xAI公司寻求在人工智能领域崭露头角。xAI公司获得了数千个高性能图形处理单元（GPU），用于构建大型语言模型。人工智能大模型领域的融资热潮持续高涨，多家初创企业获得了巨额融资，包括Anthropic和Databricks等公司。这一趋势表明人工智能领域的创新和竞争激烈，各方都在积极投入资源。