简介
语音识别是一项将语音转换为文本的技术,想象一下它如何在游戏中发挥作用?发出命令操纵控制面板或者游戏角色、直接与 NPC 对话、提升交互性等等,都有可能。本文将介绍如何使用 Hugging Face Unity API 在 Unity 游戏中集成 SOTA 语音识别功能。
您可以访问 itch.io 网站 下载 Unity 游戏样例,亲自尝试一下语音识别功能。
先决条件
阅读文本可能需要了解一些 Unity 的基本概念。除此之外,您还需安装 Hugging Face Unity API,可以点击 之前的博文 阅读 API 安装说明。
步骤
1. 设置场景
在本教程中,我们将设置一个非常简单的场景。玩家可以点击按钮来开始或停止录制语音,识别音频并转换为文本。
首先我们新建一个 Unity 项目,然后创建一个包含三个 UI 组件的画布 (Canvas):
开始按钮: 按下以开始录制语音。
停止按钮: 按下以停止录制语音。
文本组件 (TextMeshPro): 显示语音识别结果文本的地方。
2. 创建脚本
创建一个名为 SpeechRecognitionTest
的脚本,并将其附加到一个空的游戏对象 (GameObject) 上。
在脚本中,首先定义对 UI 组件的引用:
[SerializeField] private Button startButton;
[SerializeField] private Button stopButton;
[SerializeField] private TextMeshProUGUI text;
在 inspector 窗口中分配对应组件。
然后,使用 Start()
方法为开始和停止按钮设置监听器:
private void Start() {
startButton.onClick.AddListener(StartRecording);
stopButton.onClick.AddListener(StopRecording);
}
此时,脚本中的代码应该如下所示:
using TMPro;
using UnityEngine;
using UnityEngine.UI;
public class SpeechRecognitionTest : MonoBehaviour {
[SerializeField] private Button startButton;
[SerializeField] private Button stopButton;
[SerializeField] private TextMeshProUGUI text;
private void Start() {
startButton.onClick.AddListener(StartRecording);
stopButton.onClick.AddListener(StopRecording);
}
private void StartRecording() {
}
private void StopRecording() {
}
}
3. 录制麦克风语音输入
现在,我们来录制麦克风语音输入,并将其编码为 WAV 格式。这里需要先定义成员变量:
private AudioClip clip;
private byte[] bytes;
private bool recording;
然后,在 StartRecording()
中,使用 Microphone.Start()
方法实现开始录制语音的功能: