玩音乐的人写的Suno.ai教程就是不一样！全球大模型汇总清单(持续更新)；深度盘点文生图&文生视频；AI Native工作流即将崛起

本文链接：https://blog.csdn.net/weixin_42907150/article/details/136859142

👀 YC官网公布 4000+ 创业公司详细信息，20年追风逐浪

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

www.ycombinator.com/companies

补充一份背景：Y Combinator (简称YC) 是全球知名的创业孵化器，不仅为创业者提供资金支持，还提供一系列的资源和服务来帮助解决创业过程中的各种问题。

YC 独特的投资策略和敏锐的洞察力一直备受好评，其投资成绩也很显著，大量独角兽公司已经脱颖而出。现在炙手可热的 Sam Altman 曾经是 YC 总裁 👀

YC 官网可以查看所有创业公司详细信息了！！

2005年以来，YC 已经投资 4000+ 创业公司了，合起来的总估值也已经超过了 6000 亿美元。

YC官网上线了「Startup Directory」页面，可以按照 Batch、Industry、Region、Tags、Company Size 维度对其投资的所有公司进行检索，还支持关键词搜索。检索结果列表包含公司的简要信息，点击可以看到每家公司的详情页，非常具体全面！！

如果你对 YC 的投资历史和动向感兴趣，那么可以研究起来了 👀

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

www.ycombinator.com/companies/i…

YC 还设置了一个生成式AI专题页面「Generative AI Startups funded by Y Combinator (YC) 2024」，包含100家 YC 投资的 GenAI 相关初创企业。

YC 的投资动向一直是硅谷创业的风向标之一。如果你也想投身 GenAI 创业的浪潮，记得跟上 YC 的节奏~

🉑 中美之外，还有哪些大模型？这里有份「比较完整」的全球大模型名单

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

补充一份背景：中美大模型太多了，日报只列举最常被提及的一些；其他国家和地区的大模型信息很少，努力查找但难免疏漏~

🔔 美国 (部分)

GPT-4：OpenAI 发布，拥有超过1万亿参数，支持32768个令牌的最大上下文长度
PaLM 2 (Bison-001)：谷歌发布，专注于常识推理、形式逻辑、数学和多语言处理
Gemini：谷歌发布，是原生多模态AI模型，包含文本、图像、音频、视频和代码
Claude：Anthropic 发布，接近 GPT-4 的性能，专注于构建有用、诚实和无害的AI助手
LLaMA：Meta AI发布，从 70 亿到 650 亿参数不等的系列开源大语言模型
**Vicuna 33B：LMSYS 发布，基于 330 亿参数训练的开源大模型

🔔 中国 (部分)

悟道：智源人工智能研究院发布，参数达到 1.75 万亿
文心一言：百度发布，基于文心大模型
盘古：华为发布，包含 CV 和 NLP 两类大模型
通义：阿里巴巴发布，包含 NLP、视觉和多模态大模型
星火：科大讯飞发布，具有跨领域知识和语言理解能力
ChatGLM：清华大学发布，支持中英双语的对话语言模型
书生·浦语 (InternLM)：上海人工智能实验室发布，多语千亿参数基座模型
baichuan：百川智能发布，开源可商用的大规模预训练语言模型
kimi：月之暗面 (MoonShot) 发布，支持超长文本处理
云雀：字节跳动发布，可以在「豆包」「扣子」等产品种使用
混元：腾讯发布，万亿中文 NLP 预训练模型
Yi：零一万物发布，拥有超长上下文窗口的开源模型

🔔 欧洲

Mistral / Mixtral：法国 Mistral AI 公司发布，7.3 亿参数，击败其他开源模型
Luminous：德国 Aleph Alpha 公司发布，700 亿参数，注重安全和隐私
BLOOM：Hugging Face 发起，1760 亿参数，注重伦理考量和可访问性

🔔 韩国

HyperCLOVA：Naver 发布，2040 亿参数，针对韩语的大模型
KoGPT：Kakao Brain 发布，基于 GPT-3 的韩语模型
Exaone：LG AI Research 发布，3000 亿参数的多模态模型
A.：SKT 发布，全球首个韩语大语言模型

🔔 日本

HyperCLOVA：NAVER 和 LINE 发布，针对日语的大语言模型
Rinna：微软日本发布，基于 GPT-2 的日语聊天机器人
ELYZA Pencil：ELYZA Co., Ltd. 发布，生成式AI产品
open-calm：CyberAgent 训练的 70 亿参数基础模型
Stormy-7b-10ep：Izumi-Lab 在 open-calm 上微调的版本

🔔 其他

YaLM：俄罗斯模型，1000 亿参数，免费供全球开发者使用
Falcon：阿联酋技术创新研究所发布，多语言开源大模型
NOOR：阿联酋发布，100 亿参数的阿拉伯语 NLP 模型
AI21 Labs：以色列公司发布，拥有 Jurassic-2 基础大模型

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

🉑 玩音乐的人写的 Suno 教程就是不一样：真正的从0到1，顺带补乐理知识

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

www.suno.ai

补充一份背景：Suno.ai 是一个基于AI的音乐创作平台，可以根据用户输入的简单提示词生成带有伴奏和人声的音乐，自发布之后就疯狂刷榜 🏆 因为生成的音乐真的很！好！听！

我们曾经在 ⋙ 这篇日报 里介绍过 Suno.ai 和匹配的提示词教程

但是！社群的小伙伴在一起玩时，遇到了一个很棘手的问题：怎么把生成的片段拼成一首完整的歌呢？

这就要熟练地结合乐理知识来设计提示词了？！嘶……感觉需要很深的行业 Know-How 哇 🤷‍♀️

然后这篇教程就出现了！作者用 7500 字非常详细地介绍了 Suno 的使用方法，从最基础的操作界面讲起，细致列出了音乐领域提示词技巧，介绍了最常用的辅助工具和拓展资源，还整理了常见问题与解决方案！！最难得的是，在涉及到乐理知识的部分有简明扼要的补充，帮助我们快速 get 操作的背后原理 👏👏👏

也就是说，跟着这份教程操作，我们真的可以搞定「提示词 → 音乐片段 → 一首完整歌」的全部流程啦！

这样具有行业知识的高水平的教程，请多来一点，我们真的很需要！ ⋙ 阅读原文

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Chirp 是 Suno 公司发布的「文本生成音乐」模型，目前已经进化到 Chirp V2 版本

🔔 Part 1-2: 简介 & Chirp 操作流程

网页版最大生成时长1分20秒，延续最大时长60秒
Explore、Create、Library、Credits、Subscribe 的页面布局和详细介绍

🔔 Part 3: Chirp 基础知识

Chirp 支持的语言：支持多种语言，并且能够自动检测并使用正确的语言进行演唱
元标签 (Metatags)：元标签是一种特殊的提示，用于在创作内容时提供方向性指引
两类特色功能

风格提示 (Style Prompting)：在提示框中输入完整的句子，或者由逗号隔开的一系列乐器、音乐元素、流派、风格词汇
⭐ 写好风格提示词的建议和注意事项
歌词提示 (Lyric Prompting)：通过元标签来引导后面的歌词、歌曲结构、音乐风格，一定程度上为歌词提示功能减负
⭐ 歌词提示的书写格式
⭐ 知识科普：歌词结构包含 Intro (引子或前奏)、Verse (诗歌部分 / 主歌)、Chorus (合唱部分 / 副歌)、Bridge (桥接部分)、Outro (尾奏)、Pre-Chorus (前副歌)(可选) 、间奏 (Interlude)(可选)

🔔 Part 4: 辅助工具

Sonoteller

sonoteller.ai
智能的音乐分析网站，输入 YouTube 链接可生成包含歌曲的分析报告

Every noise at once

everynoise.com
音乐流派分类网站，点击流派名称就可以播放对应的音乐示例

Chosic

www.chosic.com
提供音乐信息和强大的搜索功能

音乐术语查询器

nicechord.com/terms
通过搜索栏查找音乐术语的定义

维基百科音乐术语大全

en.wikipedia.org/wiki/Glossa…
提供详细的音乐术语解释和相关信息

🔔 Part 5: Chirp 进阶知识

Chirp的采样特性：在第一个生成片段的最后10秒进行采样并应用于后续片段，保持歌曲的连贯性和一致性
元标签的书写技巧：支持不同格式的括号，内容可以是名词、形容词+名词、句子(尽可能短) 等

⭐ 常用格式清单

🔔 Part 6: 实战

歌曲生成

使用常见的歌曲结构 [intro]—[verse 1]—[chorus]—[verse 2]—[chorus]—[bridge]—[chorus]—[outro]
⭐ 前奏：生成「独立前奏」的四种操作方法，解决前奏过长或不唱歌词的方法，指定乐器演奏的方法
⭐ 主歌与副歌：主歌与副歌之间自然过渡的方法
⭐ 结尾部分：控制生成需要的尾奏

纯音乐生成

⭐ 生成纯音乐的两种操作方法
⭐ 生成没有人声的伴奏的两种操作方法

🔔 Part 7: 更多

SunoBeats GPTs：质量很高，尤其对流派和风格的把控很准，能满足日常需求
非官方Suno wiki：www.notion.so/suno-ai-wik…

🔔 Part 8: 常见问题与解决方案

歌词延续：如果歌词被切断，应在下一个片段中接上，但避免重复使用被中断的元标签
器乐过渡：在器乐部分结束后，可以通过添加语气词或使用特定的元标签来提示Chirp进入歌词部分
生成错误：如果遇到“无法生成”或“尝试另一个提示”的错误，可能是由于版权、使用真实乐队或艺术家名称、违规词汇或积分用尽等原因

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

👀 a16z 最新洞察 | prosumer (producer-consumer) 的未来：AI Native工作流的崛起

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

a16z.com/the-future-…

补充一份背景：a16z (全称 Andreessen Horowitz) 是全球知名的风险投资机构，从去年开始 a16z 发布在网站的多篇 GenAI 主题分析文章都曾引起广泛关注

名词解释：prosumer 是一个合成词，由 producer 和 consumer 两个词组成，可以翻译为产消者 (生产消费者)，用来描述既消费产品或服务，又参与生产过程的个人或群体。在AI领域，prosumer 可指用AI工具和技术来创造内容、解决问题或提高工作效率的个人。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

a16z 这篇文章提出的观点很棒：目前大多数AI产品仍然专注于单一功能，但是随着LLM 能力的提升，这些产品将发展出更全面的 AI Native 工作流。

而且！即将出现的 GenAI Native Workflow 可以满足「用户操作简单 BUT 输出也能达到专业级别」这样曾经属于「异想天开」的要求！比如用户可以快速生成一张精美的图片，而不再需要吭哧吭哧花很长时间学 Adobe Photoshop 花样繁多的操作技巧。

GenAI使我们每个人都可以成为程序员、制作人、设计师、音乐家，把创造力和操作技巧之间的鸿沟抹平，轻松跨越 producer 与 consumer 之间的壁垒，成为身份切换自如的新一代 prosumers

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

GenAI Native Workflow 产品首先要把大模型能力转化为易用高效的用户界面，然后具备以下功能点：

生成工具：真正解决「空白页面」的需求，或者把增量资产 (例如草图或大纲) 转化为更完整的产品
多模态组合：可以在一个地方生成并组合多种模态的内容 (比如图片、文字、音频、视频等)，不过目前还没有一个模型可以生成所有这些资源类型
智能编辑器：因为生成模型的随机性使得用户有大量的修改需求，智能编辑使得内容生成的迭代更加容易，比如基于已有输出进行微调 (而不是从头开始)，
平台内细化：最后10%的润色工作通常是创造出好作品和伟大作品之间的区别，平台可以帮助识别哪些需要改进并自动完成
可重复/可转换的输出：AI生成的内容灵活性很高，可以作为后续迭代的起点，新的工作流要允许用户在不同媒介间之间自由转换

a16z 判断未来几个月 Prosumer产品有望出现以下工具：

编辑工具的进化：期待出现能够在单一平台上完成从内容生成到编辑、混音等所有步骤的工具，例如视频编辑可能不再需要在多个平台之间切换
交互模式的多样化：期待出现更多支持语音、草图等非文本交互方式的工具，以便用户以更自然的方式与AI工具合作，例如Oasis、TalkNotes 和 AudioPen 等工具可以将语音笔记转化为电子邮件、博客文章或推文
平等对待人类和AI生成内容：期待工具能够平等对待人类和AI生成的内容，使它们可以无缝结合，例如 Runway 编辑工具允许用户在同一个时间线上使用AI生成的剪辑和真实资产，并使用魔法工具对两者进行编辑

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

🉑 一文纵览「文生图」「文生视频」技术的发展路径与应用场景

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一、主流文生图技术发展路径

横向来看，文生图的主流技术路径可分为4类
纵向来看，主流文生图技术的演进路径

二、主流文生视频技术发展路径

早期发展 (2016 年以前)
奠基任务：GAN/VAE/flow-based (2016-2019 年)
自回归模型及扩散模型生成阶段 (2019-2023)
未来发展趋势 (2024-?)
视频生成模型 mapping

三、应用场景

基于闭源模型
基于开源模型 ⋙ 阅读原文

🉑 如何将大语言模型集成到系统和产品中？一共有7种模式！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

eugeneyan.com/writing/llm…

这是一篇长文，详细讲解了将大语言模型集成到系统和产品中地7种模式，并将其按照「Data - User」「Defensive - Offensive」划分成了四个象限。

以下是这7种模式地简单介绍，原文详细且专业地讨论了模式的具体使用方式，包括评估的构建、RAG的实现、微调的方法、缓存策略、防护措施的实施以及如何通过用户体验设计来收集反馈等。感兴趣可以访问上方 👆 链接：

评估 (Evals)：用于衡量模型在特定任务上的性能，包括基准数据和指标
检索增强生成 (RAG)：通过从外部检索相关数据并增强输入，为模型提供更丰富的上下文，以提高输出的质量
微调 (Fine-tuning)：通过在特定任务上进一步训练预训练模型，使其更好地完成任务
缓存 (Caching)：通过存储先前检索或计算的数据，减少响应的延迟和成本
防护措施 (Guardrails)：确保LLM输出的质量，包括验证输出的语法正确性、事实准确性和无害内容
防御性用户体验 (Defensive UX)：设计策略，以预见并优雅地处理用户与基于LLM的产品交互中可能出现的错误
收集用户反馈：通过收集用户反馈来构建数据飞轮，这些反馈有助于改进模型、微调和防护措施