Coze+Cursor,10分钟为女儿批量生成儿歌朗诵音频

大家好,我是星河。

上一篇文章《我为女儿做了一个游戏网站》中,星河为女儿开发了一个游戏网站。但是并没有进行后台数据配置,遭到了女儿的强烈抗议,毕竟一个识字游戏里只有“天地人”三个字确实太简陋了。好不容易到周末,就想着为女儿配置一下汉字库,跟她的学习进度匹配起来。

图片

星河原本的想法是,幼儿园估计教不了多少个字,星河为每一个汉字找一首儿歌或者古诗,然后自己录一下音频配置进去就好了。可当女儿把她学过的汉字表拿出来的时候,星河一下有点懵了:女儿怎么就已经学习了五十多个汉字了?这要按照原来的思路,估计一天都搞不定……顺便反省一下,看来星河对女儿的学习确实关心不够啊……

图片

那能不能只给出一个汉字,然后就自动找到相应的古诗或儿歌,生成对应的朗诵音频文件呢?当然可以!这就要请出我们今天的主角Coze了。星河利用Coze和Cursor,花了差不多两个小时,就搞定了所有汉字、儿歌和音频的生成和录入工作。

Coze是什么?

Coze是字节推出的一个智能体创建平台。我们来看看官方的介绍:

图片

简单来说,我们可以利用Coze,快速搭建一个基于大模型的应用。这与星河今天的需求非常吻合,星河的想法是:给出一个汉字,利用语言大模型找到或创作出一首包含指定汉字的,适合五岁儿童的古诗或儿歌;然后通过文本转语音工具将儿歌转换为音频文件。这样我们汉字库素材就有了!

创建生成儿歌的工作流

思路有了,就开始行动。首先进入Coze官网:https://www.coze.cn/,通过手机号码进行登录:

图片

登录之后,点击左侧功能面板里的这个“+”号,选择“创建智能体”:

图片

图片

需要给智能体取一个名字,并简要说明。我们就叫它“古诗儿歌生成”,然后点击确认。

图片

在弹出的页面里选择添加“工作流”:

图片

点击“创建工作流”,输入工作流名称和描述,注意工作流名称只能用英文字符:

图片

图片

创建好之后会来到工作流的编辑页面:

图片

默认会有一个开始节点和一个结束节点。我们要做的就是从开始节点处传入指定的汉字,然后经过一系列工作步骤,在结束节点处拿到需要的儿歌和音频文件。这么说有点抽象,但是操作起来还是很简单的。我们先点击开始节点看一下:

图片

右侧会出现输入节点的配置。变量名只能是英文字符,类型选String,表示我们的输入是字符。

输入配置好以后,点击开始节点后面那个小圆点,添加下一步工作流程,这儿我们选择“大模型”,利用大模型来生成儿歌:

图片

添加完成后,界面应该是下面这个样子。点击大模型节点进行配置:模型选择Deepseek-R1;变量名输入word,变量值选择开始节点里的input,表示word就是开始节点里输入的汉字;系统提示词和用户提示词描述大模型的任务,其中{{word}}表示对变量word进行引用,在执行的时候,会替换成输入的汉字。比如输入的是“花”,那么用户提示词在执行时就会变成“我给你的汉字是花”,进而大模型会根据要求找到或创作一首包含花的儿歌,然后输出。

图片

儿歌有了之后,需要把它转换成音频。点击大模型节点后面的小圆点,添加下一个工作步骤。这次我们添加一个插件。通过搜索“文本转语音”插件,找到并添加扣子官方的语音合成插件:

图片

图片

添加完成之后,将语音合成插件输入中的text引用到大模型节点的output上,这样大模型输出的儿歌就可以作为语音合成插件的输入文本了。

图片

然后将语音合成插件和结束节点连接起来,将结束节点的output引用到语音合成插件输出的data.link上,获取转换后的音频URL。

图片

接下来运行看看效果。我们输入“花”,点击试运行,稍等片刻,儿歌和音频就生成好了:

图片

图片

将输出的URL复制到浏览器里打开,可以听到儿歌朗诵。点击快捷键Ctrl+S,就能将儿歌朗诵音频保存到本地了!

图片

最后我们对工作流进行完善:在开始节点后面再添加一个语音合成插件,将输入的汉字也转换成音频文件;同时将两个音频文件和儿歌内容都输出到结束节点。最终的工作流是这样的:

图片

现在只要输入一个汉字,运行工作流,就能够得到一个汉字音频文件、一首儿歌以及儿歌的朗诵音频文件了。

Cursor+API调用,批量生成儿歌素材

然而,为五十多个汉字分别调用一次工作流,然后将儿歌复制出来,再将两个音频文件保存下来,依然是一件很麻烦的事情。那有没有办法将这一步也自动化完成呢?当然可以!这时候就该请出我们的老朋友Cursor了。

刚才我们在Coze的介绍里看到,生成的工作流是可以通过API调用的。结合Cursor的编程能力,我们可以写一个自动调用儿歌生成工作流的程序,然后将需要的文件保存下来就好了!

那怎么调用Coze工作流的API呢?我们先回到工作流编辑页面,发布工作流,版本号和描述按需填写:

图片

然后回到主页,在左侧功能面板里点击“扣子API”,在工作流里选择“执行工作流”:

图片

图片

进入工作流执行页面,需要配置三个参数,token、 workflow_id和parameters:

图片

(1)token

点击“授权”,选择“个人访问令牌”,点击“添加新令牌”:

图片

设置令牌名称,选择过期时间,选择工作流,配置工作空间,点击确定,复制个人令牌,这就是我们需要的token了。注意,一定要复制完token后再关闭页面,因为安全原因,这个token之后就无法完整显示并复制了:

图片

图片

图片

(2)workflow_id

回到Coze主页,点击“工作空间”->“资源库”,可以看到刚发布的工作流,点击进入工作流编辑页面,URL末尾的数字即是我们需要的workflow_id:

图片

图片

(3)parameters

这是一个Json串格式的输入,对应开始节点的输入。所有内容填好之后,点击“运行”,就能得到跟刚才一样的儿歌音频。返回的URL在右下角显示。

图片

好了,一切准备就绪,现在让Cursor来调用这个API,生成我们的程序吧!需求非常明确:输入一系列的汉字,程序为每一个汉字调用工作流生成儿歌及音频,并保存到本地。星河的提示词是这样的:

图片

同时将Coze API的调用示例和注意事项发给Cursor:

图片

图片

Cursor很快完成了程序编写。运行一下,不到十分钟时间,所有的汉字、儿歌和音频文件都生成了!女儿终于不用在抱怨我这个不负责任的父亲,可以开开心心的玩游戏了!

图片

写在最后

老样子,星河的代码提交了git,地址是:https://github.com/lc-hanxi/AI-Program,有需要的朋友可以自取。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值