地表最强Suno音乐创作教程；回顾杨植麟5次专访，探寻月亮背面的秘密；RAG VS 长文本，谁才是大模型的未来？智谱GLM大模型入门指南 | ShowMeAI日报

最新推荐文章于 2025-03-25 18:39:46 发布

ShowMeAI

最新推荐文章于 2025-03-25 18:39:46 发布

阅读量1.2k

点赞数 7

分类专栏： ShowMeAI日报 ⛽ 用知识加速每一次技术进步文章标签：大语言模型 AIGC 人工智能 prompt AI-native agi gpt

本文链接：https://blog.csdn.net/ShowMeAI/article/details/137029076

版权

ShowMeAI日报 ⛽ 用知识加速每一次技术进步专栏收录该内容

378 篇文章

订阅专栏

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！

👀 月之暗面 Kimi 开启国内大模型「长文本」混战：各大厂纷纷跟上

https://kimi.moonshot.cn

补充一份背景：月之暗面 (MoonShot AI) 是一家中国大模型创业公司，创始人是「天才AI科学家」杨植麟。月之暗面的主要产品是「Kimi智能助手」，于2023年10月首次发布，并在随后进行多次模型升级。

在这轮爆火之前，月之暗面称得上低调 —— 没有「超越GPT-4」烂俗通稿，投放营销都很克制，甚至模型升级通知是发公众号 🤭

然而，低调的 Kimi 在春节期间迎来了爆发式增长的转折点，随后彻底火出了圈外 —— 上了微博热搜，并且开始吸引资本市场的注意。

3月18日，Kimi 宣布开启 200 万字文本的内测，让用户直观感受到了「长上下文」的技术实力，也助力了自己火爆程度的升级。月之暗面一直坚持的技术路线，终于彻底占领了用户心智 ⋙ 官方发布 | ⋙ 200 万字体验测评

https://tongyi.aliyun.com/qianwen

Kimi 长文档能力爆火出圈后，阿里通义千问宣布免费开放 1000 万字长文档处理能力。实际上，这个功能更几天已经发布了，只是反响平平 ↓↓↓

3月14日，阿里·通义千问也推出了免费的文档解析功能，可以处理超过万页 (约一千万字) 的单个文档，也可以实现100多份文档的跨文档摘要、分析和内容创作 ⋙ 官方发布

https://browser.360.cn/ai/

3月23日，360 智脑宣布正式内测 500 万字长文本处理功能，即将入驻 360 AI 浏览器。此前文本上限约为 100 万字 ⋙ 官方发布

百度也放出消息称，文心一言下个月将进行版本升级，届时也将开放长文本能力，文字范围会在 200 万 - 500 万。目前的文本上限约为 2.8 万字。

至此，国内大模型之间的「长文本」大战，正式拉开序幕 ⚔

👀 Kimi 专家交流纪要：一些内部具体数据，还有几句行业大实话

这是一篇近期的 Kimi 专家交流要点整理，对技术路径等进行了概括表达，并且透露了一些具体的数据信息。日报整理一下非技术问答的要点，如果你对 Kimi 感兴趣，可以完整地看看 ⋙ 这篇文章

目前参数量 2000 亿左右。
远期的愿景是文本处理超越亿级 (1亿个中文词)。
假设不增加云计算资源，能支撑用户在线人数是 400-500 万人。预计在 400-500 万用户的时候进行商业化。
目前团队整体100-200人，技术 (算法专家、系统专家、数据工程团队等) 人员加起来120人左右，其他是 Kimi app产品规划 (产品开发团队) 、To B商业化团队。
Kimi 在长文本领域领先，长文本是大模型核心之一。行业还是向多模态方向发展，未来公司会发布多模态大模型。多模态对标文心一言、通义千问，而且现在追赶速度很快。
同海外模型相比，Kimi在中文处理能力上领先，扩大到其他语言可能没有什么优势。交互的拟人性，Kimi整体上会比openAI落后10%左右，逻辑推理能力也会落后。
Kimi 业务有3个方向：① 继续扩大参数规模；② 推出多模态大模型后将其to C产品化应用，并在Kimi上推出各种插件；③ 文本处理能力会继续增长，而且速度会很快。

🉑 为什么是月之暗面？为什么是长文本？回看杨植麟的5次深度专访

杨植麟很少公开露面，但他每次专访都保持了相当的输出水准，成为我们了解月之暗面、了解他创业愿景的好窗口。

5次采访，不仅挖掘出了非常多的创业细节和思考维度，还验证了杨植麟技术洞察的超前性和准确性。今天重读，仍然非常有收获，甚至对于一些内容的认知更明确了。

⏳ 2023年8月 ⋙ @机器之心

时间点：Moonshot AI 核心技术团队已经超过 40 余人，即将完成第二轮融资，已经完成前期验证，准备用更大的数据集进行训练 (距离 Kimi 发布还有2个月)。

值得关注的话题和思考：

人才团队：首次介绍联创团队 & 核心技术团队的人才实力，非常清晰地列举了团队成员主导的有世界影响力的工作，包括大模型方向、视觉方向、基础设施方向、强化学习方向等。现阶段的人才稀缺性比资本稀缺性高。工程实现能力决定了技术下限，而算法创新能力决定了技术上限。
技术愿景：每项技术基本都会历经原理探索期、技术创新期以及纯产品应用阶段三个阶段。大模型第一性原理是对数据进行最大限度的规模化无损压缩，随后要想更好的办法尽可能对整个人类文明进行压缩，然后就能在技术上实现较高程度的智能化。五年内，更好的模型质量通常会直接带来更好的用户体验，Model as an application。
超越 GPT-4：有可能超越 OpenAI GPT-4，需要时间和技术创新，判断标准是模型的压缩比。月之暗面的目标不是追赶 OpenAI，因为人工智能领域有很多维度需要探索，最后应该是多家公司各自有擅长的部分。
⭐ Transformer 肯定会被替代：短期三到五年内，是在Transformer 核心思想上进行优化。在这个过程中，量变产生质变，会自然通过组合演进的方式产生比Transformer更好的模型。

⏳ 2023年10月 ⋙ @36氪

时间点：Kimi 智能助手首次发布，技术团队已经 60 多人。

值得关注的话题和思考：

为什么选择做一款 ToC 的智能助手：只有当大模型被多数人使用时，才会涌现出最多的智能。
⭐ Transformer 诞生的革命性意义：Transformer 架构的出现让整个 NLP 领域都发生了巨大的认知变化，之前完全无法实现的东西，变得有可能了。这个世界其实就是一个硬盘模型，人类文明之和就是硬盘的总和，因此语言模型是唯一的问题，或者说是next token prediction (预测下一个字段) 是唯一的问题。只要能预测下一个Token是什么，就实现了智能。
对 AGI (通用泛化的智能) 终极形态的理解：每个人都会有一个和自己共生且高度个性化的 AI Agent，共享着全部的记忆。而如果大模型的 Context (上下文) 就是这些全部的记忆，那么理论上，它就可以做你现在做的全部事情。AGI 最大的价值就是，最终每个人不用做自己不想做的事情，保留人性里面最精华的部分。

⏳ 2023年11月 ⋙ @极客公园

值得关注的话题和思考：

月之暗面：公司命名来自于 Pink Floyd (摇滚乐队) 的《The Dark Side of the Moon》摇滚专辑
⭐ 构建新的组织形式是通往 AGI 的必经之路：Google 的组织了涌现出 Transformer，OpenAI 的组织涌现出了 ChatGPT。但是 AGI 时代的底层逻辑发生了变化，需要新的组织形式来匹配，或者说只有组织允许涌现出 AGI，才有可能通过创新获得最终的成功。OpenAI 在人才密度、共同愿景和高效聚焦方面做得很好。
⭐ 为什么选择了长文本：如果说 Transformer 是一个新的计算机，它有两个最重要的维度。一个维度是「参数数量」，决定了计算的复杂度 (像旧式计算机的 CPU)；另一个维度是「上下文长度」，决定了有多少东西能参与计算 (类似于内存)。参照计算机系统发展过程中「内存」增长带来的性能和效率提升，与之对应的「上下文长度」也绝对是一个非常非常重要的东西。
对智能摩尔定律的观点：认同智能摩尔定律的观点，但更关注场景摩尔定律；有多少场景被解锁，以及如何实现指数级上升，这将是下个时代最伟大的公司的关键指标。
我们以前善于目标导向，通向有用。但未来把一件事变得有用、普惠的过程中，可能需要一点 moonshot 的精神。你在瞄向一个高位置的东西，不管打不打得中，至少要往宇宙深处走，往星河深处走，我觉得这是让人兴奋的。往往可能是一些兴奋的目标，聚集起了真正优秀的人。

⏳ 2024年2月 ⋙ @海外独角兽

时间点：完成 B 轮融资

值得关注的话题和思考：

⭐ AI的核心是 scaling law (规模法则)。机器学习或者 AI 研究了七八十年，唯一 work 的东西其实是 scaling Law。
月之暗面与 OpenAI 的差异化路径在于技术愿景和技术空间的不同。很多领域并不是 OpenAI 的核心竞争力 (比如图片生成)，而 AGI 目前的技术空间还足够大，有充分的差异化机会。而且，我们还希望在下一个时代，能成为一家结合 OpenAI 技术理想主义和字节所展现的商业化哲学观的公司。
⭐ Lossless long context is everything：所有问题都是 long-context 的问题 —— 历史上所有的架构演进本质上都是在提升有效的 context length。如果你有 10 亿的 context length，今天看到的问题都不是问题。
AI-Native 产品最终的核心价值是个性化交互，这是以前技术实现得不好的，所以这个问题其实是关于个性化的 —— 怎么让用户使用你的产品多了之后，获得高度个性化的互动体验。
以前做产品是通过了解用户的需求设计功能，新时代需要在制造的过程中完成设计。ChatGPT 就是通过制造完成设计，并没有先设计出来一堆场景再找对应的算法。
未来的入口至少有两个，一个是有用的，一个是好玩的。信息入口可能不存在了，智能的入口以后大概率会覆盖搜索引擎这类信息入口。AGI 的入口应该直接帮用户完成任务，而不是帮他们获取信息。

⏳ 2024年3月 ⋙ @腾讯新闻·张小珺

时间点：第三笔融资进行中；Sora发布

值得关注的话题和思考：

2017年-2018年，OpenAI风评很差，很多人跟 Ilya Sutskever 聊完，觉得这个人疯了，OpenAI不是疯子就是骗子。但他们从很早开始投入，找到非共识，找到AI现在唯一work的第一性原理：通过 next token prediction 去 scale (通过对下一个标记的预测来进行规模化)。
会有比OpenAI更伟大的公司存在。一个真正伟大的公司能结合技术理想主义，并让它用一个伟大的产品跟用户共创，AGI最终会是一个跟所有用户 co-work (协作) 产生的东西。
长文本是登月第一步。接下来会有两个大的milestone (里程碑) ：一是真正的统一的世界模型，它能统一各种不同模态；二是能在没有人类数据输入的情况下，使AI持续进化。
开源落后于闭源。因为开源的开发方式跟以前不一样了，以前是所有人都可以contribute (贡献) 到开源，现在开源本身还是中心化的。开源的贡献可能很多都没有经过算力验证。闭源会有人才聚集和资本聚集，最后一定是闭源更好，是一个consolidation (对市场的整合)。
**Sora有点像视频生成的GPT-3.5，是阶跃式提升。Generative AI (生成式AI) 做到这个效果在意料之内，意外的是时间——比之前预估更早。这也反映了现在AI的发展很快，很多scaling的红利没有被完全吃下来。Sora + GPT 有可能打通数字世界和物理世界，也可以去更加端到端完成任务。
2024年国产模型预测：一是因为前期的投入，有合适的团队，做出世界领先的某一些维度的能力。二是会出现更多用户量级更大的产品，这是大概率的。三是会有进一步的consolidation和路线选择的分化。
杨植麟形容自己过去一年的感知：有点像开车在路上，前面有延绵的雪山，但你不知道里面是什么，你在一步一步往前走。

🉑 大模型上下文长度疯狂增长，是用了什么技术？RAG vs 长文本

国内外各家大模型厂商，陆续发布了更长上下文的模型，比如月之暗面 Kimi 2000K，智谱 GLM-4 128K，Gemini Pro 100K，Claude-3 Opus 200K，Yi-34 200K等等。

大模型文本长度的快速提升，用到了哪些技术？长文本处理与检索增强生成 (RAG) 技术谁才是未来？Context length是否存在摩尔定律？长文本及 RAG 在大模型场景落地时承担什么角色？ ⋙ 非常棒的一篇文章

🔔 RAG vs 长文本，谁更胜一筹？

观点一：RAG 与长文本各有所长。长文本适合多轮对话和复杂任务，而 RAG 适合快速检索和处理特定信息。
观点二：长文本将取代 RAG。长文本处理的优势在于能够处理大量数据和复杂任务，未来可能取代 RAG。
观点三：RAG 和长文本分工已经明确，不存在争议空间。RAG 在严肃场景中更适用，而长文本适合多轮对话和理解上下文。
观点四：长文本和 RAG 需要结合。RAG提供准确和时效信息，长文本提供泛化和上下文理解，两者结合使用是趋势。
观点五：RAG 是大模型发展的中间态，短期内长文本无法替代 RAG。RAG 作为当前的主流选择，虽然长文本技术在进步，但 RAG 在短期内仍有其不可替代的地位。

🔔 Context Length 是否存在摩尔定律？

观点一：存在。Context length 的增长速度远超摩尔定律，但增长速度本身可能受到算力和能源限制。
观点二：不存在。Context 增长的复杂度高于计算能力增长，且大模型在特定领域的应用需求减少可能导致投入减少。
观点三：不确定。Context length增长规律尚不成熟，与摩尔定律相比，还需要更多时间和数据来进行经验总结。

🔔 模型层：大模型如何优化？如何有效对大模型测试？**

模型优化——优化数据质量。训练数据的质量比数量更重要，需要有效筛选和加权以提高模型性能。
模型优化——节省计算资源。在反向传播阶段节约计算资源，以及让数据窗口内的数据尽可能相似以利于预训练。
模型测试——大海捞针是否是唯一？大海捞针是主流测试方法，但新的测试方法如多针检索加推理测试提供了更全面的评估。

🔔 长文本及 RAG 在大模型场景落地时的角色

投资人的看法。投资人关注内存增长和 RAG 外挂知识库作为资产的价值。
情感陪伴。RAG 是对 Long-Context 的补充，尤其在情感陪伴领域，结合使用能提供更好的用户体验。
教育产品。教育产品需要打通不同年龄段信息，利用数据压缩技术提高服务逻辑性。
医疗领域。大模型在医疗领域的文本和图像理解表现出色，但在 Mapping上存在不足，合作和特定技术引入可能更有效。
未来发展趋势。信息传递方式的变化和新一代计算芯片的发展将对大模型技术产生显著影响。

🉑 玩音乐的人写的 Suno 教程就是不一样：真正的从0到1，顺带补乐理知识

https://www.suno.ai

补充一份背景：Suno.ai 是一个基于AI的音乐创作平台，可以根据用户输入的提示词生成带有伴奏和人声的音乐。最近，Suno 更新到了更强的 V3 版本，制作水平已经达到了让人惊艳的程度~

推荐一份地表最强的 Suno 专业教程，而且还是中文的！

作者用 7500 字非常详细地介绍了 Suno 的使用方法，从最基础的操作界面讲起，细致讲解了结合乐理的提示词技巧，给出了超级完备的常用辅助工具和拓展资源，还整理了常见问题与解决方案！！

这份教程最难得的，是简明扼要地补充了基础乐理知识，帮助我们快速 get 一些有效操作的背后原理 👏👏👏 跟着这份教程，你也可以把 Suno 玩出花来！！ ⋙ 完整教程

Part 1-2: 简介 & Chirp 操作流程

网页版最大生成时长1分20秒，延续最大时长60秒

Explore、Create、Library、Credits、Subscribe 的页面布局和详细介绍

Part 3: Chirp 基础知识

Chirp 支持的语言：支持多种语言，并且能够自动检测并使用正确的语言进行演唱

元标签 (Metatags)：元标签是一种特殊的提示，用于在创作内容时提供方向性指引

两类特色功能

风格提示 (Style Prompting)：在提示框中输入完整的句子，或者由逗号隔开的一系列乐器、音乐元素、流派、风格词汇 → ⭐ 写好风格提示词的建议和注意事项

歌词提示 (Lyric Prompting)：通过元标签来引导后面的歌词、歌曲结构、音乐风格，一定程度上为歌词提示功能减负 → 歌词提示的书写格式

⭐ 歌词结构的知识科普：Intro (引子或前奏)、Verse (诗歌部分 / 主歌)、Chorus (合唱部分 / 副歌)、Bridge (桥接部分)、Outro (尾奏)、Pre-Chorus (前副歌)(可选) 、间奏 (Interlude)(可选)

Part 4: 辅助工具

Sonoteller：智能的音乐分析网站，输入 YouTube 链接可生成包含歌曲的分析报告

Every noise at once：音乐流派分类网站，点击流派名称就可以播放对应的音乐示例

Chosic：提供音乐信息和强大的搜索功能

音乐术语查询器：通过搜索栏查找音乐术语的定义

维基百科音乐术语大全：提供详细的音乐术语解释和相关信息

Part 5: Chirp 进阶知识

Chirp的采样特性：在第一个生成片段的最后10秒进行采样并应用于后续片段，保持歌曲的连贯性和一致性

元标签的书写技巧：支持不同格式的括号，内容可以是名词、形容词+名词、句子(尽可能短) 等

⭐ 常用格式清单

Part 6: 实战

歌曲生成

使用常见的歌曲结构 [intro]—[verse 1]—[chorus]—[verse 2]—[chorus]—[bridge]—[chorus]—[outro]

⭐ 前奏：生成「独立前奏」的四种操作方法，解决前奏过长或不唱歌词的方法，指定乐器演奏的方法

⭐ 主歌与副歌：主歌与副歌之间自然过渡的方法

⭐ 结尾部分：控制生成需要的尾奏

纯音乐生成

⭐ 生成纯音乐的两种操作方法

⭐ 生成没有人声的伴奏的两种操作方法

Part 7: 更多

SunoBeats GPTs：质量很高，尤其对流派和风格的把控很准，能满足日常需求

非官方 Suno wiki：https://www.notion.so/suno-ai-wiki/4e24aa838bf84fffaf383b1f9ed50748

Part 8: 常见问题与解决方案

歌词延续：如果歌词被切断，应在下一个片段中接上，但避免重复使用被中断的元标签

器乐过渡：在器乐部分结束后，可以通过添加语气词或使用特定的元标签来提示Chirp进入歌词部分

生成错误：如果遇到“无法生成”或“尝试另一个提示”的错误，可能是由于版权、使用真实乐队或艺术家名称、违规词汇或积分用尽等原因