如何在 Unity 游戏中集成 AI 语音识别？

Hugging Face

于 2023-06-12 18:00:18 发布

阅读量1.4k

点赞数

文章标签：语音识别 unity 人工智能游戏游戏引擎

本文链接：https://blog.csdn.net/HuggingFace/article/details/131179897

版权

简介

语音识别是一项将语音转换为文本的技术，想象一下它如何在游戏中发挥作用？发出命令操纵控制面板或者游戏角色、直接与 NPC 对话、提升交互性等等，都有可能。本文将介绍如何使用 Hugging Face Unity API 在 Unity 游戏中集成 SOTA 语音识别功能。

您可以访问 itch.io 网站下载 Unity 游戏样例，亲自尝试一下语音识别功能。

先决条件

阅读文本可能需要了解一些 Unity 的基本概念。除此之外，您还需安装 Hugging Face Unity API，可以点击之前的博文阅读 API 安装说明。

步骤

1. 设置场景

在本教程中，我们将设置一个非常简单的场景。玩家可以点击按钮来开始或停止录制语音，识别音频并转换为文本。

首先我们新建一个 Unity 项目，然后创建一个包含三个 UI 组件的画布 (Canvas):

开始按钮: 按下以开始录制语音。
停止按钮: 按下以停止录制语音。
文本组件 (TextMeshPro): 显示语音识别结果文本的地方。

2. 创建脚本

创建一个名为 SpeechRecognitionTest 的脚本，并将其附加到一个空的游戏对象 (GameObject) 上。

在脚本中，首先定义对 UI 组件的引用:

[SerializeField] private Button startButton;
[SerializeField] private Button stopButton;
[SerializeField] private TextMeshProUGUI text;

在 inspector 窗口中分配对应组件。

然后，使用 Start() 方法为开始和停止按钮设置监听器:

private void Start() {
    startButton.onClick.AddListener(StartRecording);
    stopButton.onClick.AddListener(StopRecording);
}

此时，脚本中的代码应该如下所示:

using TMPro;
using UnityEngine;
using UnityEngine.UI;

public class SpeechRecognitionTest : MonoBehaviour {
    [SerializeField] private Button startButton;
    [SerializeField] private Button stopButton;
    [SerializeField] private TextMeshProUGUI text;

    private void Start() {
        startButton.onClick.AddListener(StartRecording);
        stopButton.onClick.AddListener(StopRecording);
    }

    private void StartRecording() {

    }

    private void StopRecording() {

    }
}

3. 录制麦克风语音输入

现在，我们来录制麦克风语音输入，并将其编码为 WAV 格式。这里需要先定义成员变量:

private AudioClip clip;
private byte[] bytes;
private bool recording;

然后，在 StartRecording() 中，使用 Microphone.Start() 方法实现开始录制语音的功能:

最低0.47元/天解锁文章