“最近发现一款宝藏工具miniMAX MCP,简直是开发者的福音!轻松实现文本转音频。今天就来和大家分享下我的使用过程,保证谁用谁喜欢!”
01
介绍MiniMAX
MiniMax 是一家通用人工智能技术公司,提供开放的多模态 AI 能力平台。简单来说,MiniMax 提供了多种大模型服务,包括文本生成、图像生成、语音合成、声音克隆、视频生成等。在开发者视角下,MiniMax 官方推出了 开放API平台,开发者可以注册获取 API Key 来调用这些模型服务。
MiniMax-MCP 指的是 MiniMax 提供的 Multimodal Content Platform(多模态内容平台) 接口服务。借助 MCP,我们可以通过统一的协议让大语言模型调用 MiniMax 提供的多模态能力。例如,我们可以让AI在创作小说的同时,自动调用 MiniMax 的语音生成模型,把文本变成音频。这种模式下,AI相当于拥有了“工具箱”,可以一边生成内容一边调用语音合成等工具完成复杂任务。
主要功能亮点:
-
文本生成:支持超长文本对话与续写(MiniMax-Text-01 模型),适合小说、文章的创作和续写。
-
语音合成:高质量文本转语音(TTS),支持超长文本一次性生成音频,可用于有声书、播报等。
-
图像/视频生成:通过文本指令生成对应的图片和视频内容。
-
声音克隆:提供给定声音样本后,克隆出相似音色的语音。
借助 MiniMax-MCP,这些能力可以被灵活地集成到开发者的应用或工作流程中。在本次实战中,我们重点使用文本生成和语音合成两大功能,体验 AI 自动写小说并生成有声小说音频的完整流程。
**提示:**MiniMax 开放平台对新用户提供了一定的免费额度(约15元),足以支持我们完成本教程中的示例。后续调用超出免费额度时会按使用量计费,因此请注意合理使用API,避免不必要的扣费。
02
配置MCP
1. 注册 MiniMax 账号并获取 API Key
首先,前往 MiniMax 开放平台 https://www.minimaxi.com/ 官网注册账户(国内用户可使用手机快捷注册登录)。注册成功后,登录平台进入用户后台。在个人账户管理页面,我们可以申请获取用于调用API的密钥(API Key)。
-
进入账户管理:登录后点击头像或账户菜单,进入“账户管理”或“个人中心”页面。
-
创建接口密钥:找到“接口密钥”选项卡,点击“创建新密钥”。系统将生成一串 API Key,请复制并妥善保存这串密钥。后续我们将在本地配置中用到它。
-
查看可用额度:新账户通常会附赠一些免费调用额度(例如15元余额),可以在账户首页或余额页面查看。这额度足够完成我们的示例。
[截图建议:MiniMax 开放平台账户管理界面,突出显示接口密钥申请位置和生成的 API Key]
**注意:**MiniMax 提供国内版和国际版平台,API Host 地址略有不同。国内用户获取的 API Key 通常配合
https://api.minimax.chat
域名使用(注意少一个字母i
);若使用国际版https://api.minimaxi.chat
,需要确保 API Key 为对应版本。本文以国内平台为例进行配置。
2. 在Trae的MCP中配置MiniMax的MCP
如下所示:
官方提供了两种mcp配置的方式,根据自己电脑上安装的环境的情况去选择,选不对了可能无法使用。
JS版本:https://github.com/MiniMax-AI/MiniMax-MCP-JS
Python版本:https://github.com/MiniMax-AI/MiniMax-MCP
{
"mcpServers": {
"minimax-mcp-js": {
"command": "npx",
"args": [
"-y",
"minimax-mcp-js"
],
"env": {
"MINIMAX_API_HOST": "<https://api.minimaxi.chat|https://api.minimax.chat>",
"MINIMAX_API_KEY": "<your-api-key-here>",
"MINIMAX_MCP_BASE_PATH": "<local-output-dir-path, such as /User/xxx/Desktop>",
"MINIMAX_RESOURCE_MODE": "<optional, [url|local], url is default, audio/image/video are downloaded locally or provided in URL format>"
}
}
}
}
其中MINIMAX_API_HOST是minimax的api地址,一般配置https://api.minimax.chat就可以了,
MINIMAX_API_KEY是你在minimax网站上申请的apiKey, 不要轻易泄露。新用户注册会送15元代金券,足够体验了。
MINIMAX_MCP_BASE_PATH 是你本地的地址,用于存储之后生成的音频文件,mac就配置/user/xxx,windows需要注意是D:\\user\\xxx,跟mac正好相反,否则可能启动失败
MINIMAX_RESOURCE_MODE 配置为local,生成的文件就会保存到你本地,否则就是一个url给到你。
需要特别注意一下,很多人按照这个配置之后启动会失败。看一下你本地的npx命令是不是能执行,如果不能执行,需要安装一下node js的运行环境。如果你使用的uvx,那么需要确认一下uv是否已经安装,否则也是启动不起来的。
配置好MCP之后是这样的
03
生成小说
环境就绪后,我们开始体验 AI 生成功能。现在,我们尝试让 AI 来续写一本热门小说《斗破苍穹》的后续情节,生成一篇约1000字的续集文本。
1. 提示设计:
请续写小说《斗破苍穹》的剧情。续集中,主角萧炎在获得远古传承力量后返回斗气大陆,面临新的强敌和挑战。请以原著风格写一段约1000字的故事续集,情节紧凑,突出热血和成长。
将以上提示词输入到 Trae 的对话窗口,发送给 AI 模型进行处理。
上面是AI生成小说的开头片段示例。完整的续集文本约有千字,包括了人物对白、场景描写和高潮冲突等。可以看到,AI 模型延续了原著的风格,营造出紧张刺激的氛围。你可以对生成结果进行修改润色,确保故事连贯且符合预期。
04
生成html页面
将下面一段提示词给AI,替换{{content}} -> 斗破苍穹续章
你是一名专业的网页设计师和前端开发专家,对现代 Web 设计趋势和最佳实践有深入理解,尤其擅长创造具有极高审美价值的用户界面。你的设计作品不仅功能完备,而且在视觉上令人惊叹,能够给用户带来强烈的"Aha-moment"体验。
请根据最后提供的内容,设计一个**美观、现代、易读**的"中文"可视化网页。请充分发挥你的专业判断,选择最能体现内容精髓的设计风格、配色方案、排版和布局。
**设计目标:**
* **视觉吸引力:** 创造一个在视觉上令人印象深刻的网页,能够立即吸引用户的注意力,并激发他们的阅读兴趣。
* **可读性:** 确保内容清晰易读,无论在桌面端还是移动端,都能提供舒适的阅读体验。
* **信息传达:** 以一种既美观又高效的方式呈现信息,突出关键内容,引导用户理解核心思想。
* **情感共鸣:** 通过设计激发与内容主题相关的情感(例如,对于励志内容,激发积极向上的情绪;对于严肃内容,营造庄重、专业的氛围)。
**设计指导(请灵活运用,而非严格遵循):**
* **整体风格:** 可以考虑杂志风格、出版物风格,或者其他你认为合适的现代 Web 设计风格。目标是创造一个既有信息量,又有视觉吸引力的页面,就像一本精心设计的数字杂志或一篇深度报道。
* **Hero 模块(可选,但强烈建议):** 如果你认为合适,可以设计一个引人注目的 Hero 模块。它可以包含大标题、副标题、一段引人入胜的引言,以及一张高质量的背景图片或插图。
* **排版:** * 精心选择字体组合(衬线和无衬线),以提升中文阅读体验。
* 利用不同的字号、字重、颜色和样式,创建清晰的视觉层次结构。
* 可以考虑使用一些精致的排版细节(如首字下沉、悬挂标点)来提升整体质感。
* Font-Awesome中有很多图标,选合适的点缀增加趣味性。
* **配色方案:**
* 选择一套既和谐又具有视觉冲击力的配色方案。
* 考虑使用高对比度的颜色组合来突出重要元素。
* 可以探索渐变、阴影等效果来增加视觉深度。
* **布局:**
* 使用基于网格的布局系统来组织页面元素。
* 充分利用负空间(留白),创造视觉平衡和呼吸感。
* 可以考虑使用卡片、分割线、图标等视觉元素来分隔和组织内容。
* **调性:**整体风格精致, 营造一种高级感。
* **数据可视化:**
* 设计一个或多个数据可视化元素,展示Naval思想的关键概念和它们之间的关系。
* 可以考虑使用思想导图、概念关系图、时间线或主题聚类展示等方式。
* 确保可视化设计既美观又有洞察性,帮助用户更直观地理解Naval思想体系的整体框架。
* 使用Mermaid.js来实现交互式图表,允许用户探索不同概念之间的关联。
**技术规范:**
* 使用 HTML5、Font Awesome、Tailwind CSS 和必要的 JavaScript。
* Font Awesome: [https://cdn.staticfile.org/font-awesome/6.4.0/css/all.min.css](https://cdn.staticfile.org/font-awesome/6.4.0/css/all.min.css)
* Tailwind CSS: [https://cdn.staticfile.org/tailwindcss/2.2.19/tailwind.min.css](https://cdn.staticfile.org/tailwindcss/2.2.19/tailwind.min.css)
* 非中文字体: [https://fonts.googleapis.com/css2?family=Noto+Serif+SC:wght@400;500;600;700&family=Noto+Sans+SC:wght@300;400;500;700&display=swap](https://fonts.googleapis.com/css2?family=Noto+Serif+SC:wght@400;500;600;700&family=Noto+Sans+SC:wght@300;400;500;700&display=swap)
* `font-family: Tahoma,Arial,Roboto,"Droid Sans","Helvetica Neue","Droid Sans Fallback","Heiti SC","Hiragino Sans GB",Simsun,sans-self;`
* Mermaid: [https://cdn.jsdelivr.net/npm/mermaid@latest/dist/mermaid.min.js](https://cdn.jsdelivr.net/npm/mermaid@latest/dist/mermaid.min.js)
* 实现完整的深色/浅色模式切换功能,默认跟随系统设置,并允许用户手动切换。
* 代码结构清晰、语义化,包含适当的注释。
* 实现完整的响应式,必须在所有设备上(手机、平板、桌面)完美展示。
**额外加分项:**
* **微交互:** 添加微妙而有意义的微交互效果来提升用户体验(例如,按钮悬停效果、卡片悬停效果、页面滚动效果)。
* **补充信息:** 可以主动搜索并补充其他重要信息或模块(例如,关键概念的解释、相关人物的介绍等),以增强用户对内容的理解。
* **延伸阅读:** 分析文件后,提供一份"进一步阅读"的简短清单,推荐 5 本最佳相关书籍或论文,并提供简要说明或链接。
**输出要求:**
* 提供一个完整、可运行的单一 HTML 文件,其中包含所有必要的 CSS 和 JavaScript。
* 确保代码符合 W3C 标准,没有错误或警告。
请你像一个真正的设计师一样思考,充分发挥你的专业技能和创造力,打造一个令人惊艳的网页!
待处理内容:{{content}}
这样他就生成了一个网站,样式稍微有点简陋
05
将文字转换为音频
有了小说文本页面,接下来我们利用 MiniMax-MCP 的语音合成功能,将这篇续集小说转换成音频文件,也就是制作一个有声小说的音频。这一步我们将生成一段音频文件(例如 MP3 格式),稍后可以嵌入网页播放。
1. 调用语音合成接口: MiniMax 开放平台提供了强大的文本转语音模型(如 Speech-02),我们可以通过 API 将文本发送给模型并获取音频结果。使用 Trae 等 MCP 客户端,AI 可以自动调用 MiniMax 的TTS工具。
你可以在 Trae 中对AI说:“请把上面生成的小说内容转成旁白风格的音频。” 模型收到指令后,会调用 MiniMax 的语音合成接口。几秒钟后,你应该能在目录下看到生成的音频文件。
06
将音频插入html
提示词:
将刚刚生成的音频嵌入浏览器,并提供播放、暂停、重新播放按钮,并展示进度条。
AI会自动将刚刚生成的音频嵌入html页面,保存修改后的 HTML 文件,再次在浏览器中打开或刷新。现在你应该能在网页中看到音频播放器(播放按钮、进度条、音量等)。点击播放,可以听到之前 AI 合成的小说朗读声音了!🎧
总结几点收获:
-
MiniMax 提供了强大的多模态AI能力,开发者可以方便地调用大模型完成文本、语音等生成任务。
-
MCP 的工具集成使流程自动化:通过配置MiniMax-MCP,我们让模型学会使用“工具”,实现了一键续写并朗读小说的效果。
-
多媒介融合创作更吸引人:图文音频并茂的展示形式提升了内容的可读性和趣味性,为读者带来更好体验。