使用IBM Cloud提供的语音识别、语言翻译和语音合成Cloud Foundry 服务

创作初衷:研究生阶段,高级人工智能大作业,设计使用 IBM Cloud,完成一次实例应用。
如有相关联系,大家可以参考。具体步骤比官方给出的更加详细,记得当时在云上一直无法部署成功,所以转到本地来完成。

步骤1 –创建Node-RED入门应用程序

(1)登录到IBM Cloud帐户。
(2)单击‘目录’按钮。
(3)选择Node-RED App 入门模板工具包。
在这里插入图片描述

(4)点击‘创建’按钮。
(5)输入应用程序的唯一名称。该名称将成为应用程序URL的一部分。如果名称不是唯一的,将收到一条错误消息,并需要输入另一个名称。
在这里插入图片描述

(6)其他字段信息将被预先填入IBM Cloud帐户有效选项。如果有Lite帐户,则只需接受默认值即可。如果有试用或付费帐户,或者属于其他组织,则可以选择部署到任何可用的区域,组织和空间。
在这里插入图片描述

(7)单击‘创建’按钮。
将在指定的IBM Cloud区域中配置Node-RED Starter应用程序。此过程称为暂存应用程序。此过程可能需要几分钟才能完成。无需等待应用程序供应和启动。

步骤2 –创建Watson AI服务实例

将功能强大的Watson AI微服务作为API添加到应用程序中。这些服务可以通过凭据进行管理的实例进行访问。创建所需微服务并将其绑定到Cloud Foundry应用程序,或者将凭据密钥复制并粘贴到应用程序中。
需要三项Watson AI服务,所有这些服务都可以在IBM Cloud Lite层中使用,以构建通用转换器:
• Watson Speech to Text
• Watson Text to Speech
• Watson Language Translator
(1)返回到IBM Cloud 目录,搜索 ‘speech’ 导航到AI类别。
在这里插入图片描述

(2)选择‘Speech to Text’,然后单击“ 创建”按钮。
在这里插入图片描述

(3)返回IBM Cloud Catalog中的AI类别,然后选择Text to Speech,然后单击Create按钮。
在这里插入图片描述

(4)返回到IBM Cloud 目录,搜索‘translator’,导航到AI类别。
在这里插入图片描述

(5)选择‘Language Translator’,然后单击‘创建’按钮。
在这里插入图片描述

步骤3 –将Watson AI Services连接到Node-RED Starter应用程序

在此步骤中,将新创建的Watson AI服务连接到Node-RED Starter应用程序。
(1)返回到IBM Cloud 主页面,然后导航到‘资源列表’。
在这里插入图片描述

(2)选择刚刚创建的nodered-universal-translator应用程序。将打开“应用程序详细信息”。
(3)单击链接现有服务按钮。
在这里插入图片描述

(4)分别选中之前创建的Watson AI 服务,‘Speech to Text-fn’、‘Text to Speech-zj’、‘Language Translator-iw’。

(5)选中一个Watson AI 服务后,单击‘下一步’,直到三个Watson AI 服务全部连接后,完成现有服务链接。
(6)最后点击‘自动部署’按钮。
在这里插入图片描述

等待一段时间后,完成自动部署,并显示部署成功,自动生成应用程序URL和程序源。

步骤4 –启动Node-RED应用程序并打开Node-RED可视化编程编辑器

步骤四要求本机网络链接正常、防火墙设置合理以及IBM Cloud 服务器端网络正确。如不确定似乎否网络正确,可以继续执行步骤4,如果步骤4的第四步,访问应用程序URL失败,则跳过步骤4、步骤5、步骤6,转到步骤7 继续部署应用程序。
Node-RED是一个开放源代码的Node.js应用程序,它提供了一个可视化的编程编辑器,可以轻松地将流连接在一起。
首次启动Node-RED应用程序时,Node-RED帮助您进行设置和配置可视化编程编辑器。
(1)返回到IBM Cloud 主页面,然后导航到‘资源列表’。
在这里插入图片描述

(2)在’Clound Foundry应用程序’栏中选择刚刚自动部署成功的nodered-universal-translator-zd00应用程序。将打开“ 应用程序详细信息”。
(3)单击‘重新启动’按钮。
在这里插入图片描述

(4)启动成功后,显示绿色正在运行图标后,单击访问应用程序URL链接
如果本机网络链接正常、防火墙设置合理以及IBM Cloud 服务器端网络正确,一个新的浏览器页面将打开到Node-RED起始页。如果应用程序URL链接无法打开,则跳出步骤4,到步骤7继续执行。
(5)使用设置向导可以使用用户名和密码保护编辑器的安全,并浏览和添加更多节点。如果您忘记了用户名和密码,则可以在Cloudant DB中或通过设置IBM Cloud环境变量来重置凭证。单击完成按钮继续
在这里插入图片描述

(6)单击转到Node-RED流编辑器按钮以启动Node-RED流编辑器。
在这里插入图片描述

(7)点击右上角的人形图标,并登录使用新的用户名和密码凭证。
在这里插入图片描述

将打开Node-RED Visual Programming Editor,并带有默认流程。左侧是可以拖到流上的节点的调色板。您可以将节点连接在一起以创建程序。
在这里插入图片描述

步骤5 –安装其他Node-RED节点

我们正在构建的通用翻译器不仅需要麦克风来记录消息,还需要播放翻译音频的能力。有些节点可以添加到添加这些功能的Node-RED面板中。
(1)单击节点红色菜单,然后选择管理面板
在这里插入图片描述

(2)选择安装选项卡,然后搜索browser-utils。找到node-red-contrib-browser-utils节点,然后单击Install按钮。

在这里插入图片描述

(3)搜索play-audio,找到node-red-contrib-play-audio节点,然后单击Install按钮。
在这里插入图片描述

步骤6 –为通用翻译器构建流程

Node-RED允许将Nodes从左侧面板拖放到流程画布上,并将它们连接在一起以创建程序。在Node-RED中创建流很容易。但是,如果只想将流导入到Node-RED应用程序中,则可以从GitHub存储库中获取代码。
语音到文字流
首先,让我们构建语音转文本流程。
(1)单击microphone节点并将其拖到流程中。
(2)单击Speech to Text节点并将其拖到流程中。双击它,然后选择“美国英语”。
(3)单击Debug节点并将其拖到流程中。双击并输出msg.transcription。
(4)如下图所示,将节点连接在一起。
(5)单击红色的部署按钮。
(6)选择microphone节点左侧的选项卡,并允许您的浏览器访问笔记本电脑上的麦克风。
(7)记录一条消息,例如“wow,this is much fun ”。
在这里插入图片描述

文字转语音流
构建“文本到语音”流程。
(1)单击Inject节点并将其拖到流程中。双击它,然后将有效负载类型更改为字符串,然后键入一条消息。

(2)单击Text to Speech节点并将其拖到流程中。双击它,然后选择“美国英语”。
(3)单击Change节点并将其拖到流程中。
从“文本到语音”节点返回的音频转录将作为包含msg.speech消息中音频的原始缓冲区返回。该play-audio节点希望在msg.payload上传递缓冲区,以便Change节点将重新分配值。
双击Change节点并将其分配msg.payload给msg.speech
在这里插入图片描述

(4)单击play-audio节点并将其拖到流程中。
(5)如下图所示,将节点连接在一起。
(6)按下红色的部署按钮。
(7)选择Inject节点左侧的选项卡。信息的音频将播放。
在这里插入图片描述

语言翻译流程
我们的通用翻译器将记录下来的笔录用作该language translator节点的输入,然后将外语发送到该Text to Speech节点。
(1) 单击另一个Change节点并将其拖到流程中。双击并分配msg.payload给msg.transcription。
在这里插入图片描述

(2) 单击language translator节点并将其拖到流程中。双击它,然后选择“英语”作为源,并选择“西班牙语”作为“目标”。
在这里插入图片描述

(3) 单击Debug节点并将其拖到流程中。
(4) 双击Text to Speech节点,然后将语言更改为西班牙语,然后选择一种语音。
在这里插入图片描述

(5) 如屏幕截图所示,将节点连接在一起。

在这里插入图片描述

(6) 单击红色的部署按钮。
(7)测试已经构建的通用翻译器。
1.选择microphone节点左侧的选项卡,并允许浏览器访问笔记本电脑上的麦克风。
2.记录一条消息。
3.可以在Node-RED的“调试”选项卡中查看翻译。
4.试用各种语言之间的翻译。
在这里插入图片描述

步骤7 –在本地搭建实时翻译Web应用

由于本机网络连接问题、防火墙问题以及IBM Cloud服务器问题,可能造成实时翻译应用的无法访问或者使用,因此步骤7在步骤四前三步的基础上,介绍如何在本地搭建一个能听、能说的实时翻译Web应用。
在完成步骤1、步骤2、步骤3以及步骤4的前三步的基础上,执行以下步骤:
1.下载应用代码模型
直接在github上(网址“https://github.com/ibm/watson-speech-translator”)获取代码模型,下载到本地。
2.打开代码
利用vscode编译器打开之前下载的代码模型。
3.配置凭证
(1)新建文件并命名为.env。
(2)找到env.sample文件,并将其内容复制到.env。
(3)打开.env文件,并找到下图中的字段。
在这里插入图片描述

(4)返回到IBM Cloud 主页面,然后导航到‘资源列表’。
(5)在服务栏中选择Speech to Text-fn。将打开服务的详细信息。
在这里插入图片描述

(6)将Speech to Text-fn的API密钥和URL分别粘贴到.env文件对应的字段中。
在这里插入图片描述

(7)在服务栏中选择Text to Speech-zj。将打开服务的详细信息。
(8)将Text to Speech-zj的API密钥和URL分别粘贴到.env文件对应的字段中。
(9)在服务栏中选择Language Translator-iw。将打开服务的详细信息。
(10)将Language Translator-iw的API密钥和URL分别粘贴到.env文件对应的字段中。
配置好的凭证,在.env文件中的字段如下:
在这里插入图片描述

4.运行应用程序代码
在vscode的终端命令行上分别执行如下命令:
(1)安装依赖项 npm install
(2)运行应用程序 npm start
代码运行成功后,在浏览器上访问网址http://localhost:8080/ 出现下图界面,则实时翻译应用实现成功。
在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
©️2022 CSDN 皮肤主题:数字20 设计师:CSDN官方博客 返回首页
评论

打赏作者

菜鸟panDa

你的鼓励将是我创作的最大动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值