java使用vosk开源框架完成离线版语音识别,中文语言模型可训练

vosk 官网

  1. 链接: https://alphacephei.com/vosk/

  2. 可以下载中文模型
    在这里插入图片描述

  3. 有训练的方法
    在这里插入图片描述

java使用vosk

  1. 引入依赖
    <!-- 获取音频信息 -->
    <dependency>
      <groupId>org</groupId>
      <artifactId>jaudiotagger</artifactId>
      <version>2.0.3</version>
    </dependency>

<!-- 语音识别 -->
<dependency>
    <groupId>net.java.dev.jna</groupId>
    <artifactId>jna</artifactId>
    <version>5.7.0</version>
</dependency>
<dependency>
    <groupId>com.alphacephei</groupId>
    <artifactId>vosk</artifactId>
    <version>0.3.32</version>
</dependency>

  1. 使用方法

    public static void main(String[] args) {
        LibVosk.setLogLevel(LogLevel.DEBUG);
        File file = new File("D:\\test.wav");//语音文件仅支持wav
        try (Model model = new Model(System.getProperty("user.dir")+ "/src/main/resources/vosk-model-small-cn-0.22");//模型地址
             InputStream ais = AudioSystem.getAudioInputStream(new BufferedInputStream(new FileInputStream(file))); 
             Recognizer recognizer = new Recognizer(model, getSampleRate(file))) { 

            //recognizer.setWords(true); // 开启词信息的详细输出

            int bytes;
            byte[] b = new byte[4096];//缓存大小:4k
            while ((bytes = ais.read(b)) >= 0) {
                recognizer.acceptWaveForm(b, bytes);
            }
            System.out.println(recognizer.getFinalResult() );
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    /**
     * 获取采样率,采样率为音频采样率的声道倍数
     */
    private static  Float getSampleRate(File file) throws Exception {
        WavFileReader fileReader = new WavFileReader();
        AudioFile audioFile = fileReader.read(file);
        String sampleRate = audioFile.getAudioHeader().getSampleRate();
        String channel = audioFile.getAudioHeader().getChannels();
        System.out.println("语音的声道:" + channel );
        System.out.println("语音的采样率:" + sampleRate);
        return Float.parseFloat(sampleRate) * Integer.parseInt(channel);
    }

### 实现离线语音识别 要在 Android 应用程序中集成离线语音识别功能,可以采用 PocketSphinx 或者 Vosk 这样的开源工具包。下面将以 PocketSphinx 为例介绍具体方法。 #### 准备工作 确保安装了最新版本的 Android Studio 并创建好目标项目之后,可以从 GitHub 下载 `pocketsphinx-android-demo-master` 资源文件[^1]。此压缩包内含一个完整的 Android 工程模板,可以直接被导入到 IDE 当中以便快速启动开发流程。 #### 配置依赖项 打开项目的 build.gradle 文件,在 dependencies 块里加入如下语句来引入必要的库: ```gradle implementation 'edu.cmu.pocketsphinx:pocketsphinx-android:5prealpha' ``` 接着同步 Gradle 来加载新的配置设置。 #### 初始化PocketSphinx对象 在 Activity 类中的 onCreate 方法处初始化 PockerSphinx 对象实例: ```java private static final String KWS_SEARCH = "wakeup"; private SpeechRecognizer recognizer; // 设置路径指向解压后的 assets 文件夹下的 acoustic model 和 dictionary files. File assetDir = new File(getFilesDir(), "assets"); setupAssetDirectory(assetDir); recognizer = defaultSetup() .setAcousticModel(new File(assetDir, "en-us-ptm")) .setDictionary(new File(assetDir, "cmudict-en-us.dict")) .getRecognizer(); ``` 上述代码片段定义了一个关键词唤醒搜索(`KWS_SEARCH`)以及指定了声学模型(acoustic model)和词典(dictionary),这些参数决定了能够识别的语言种类及其准确性。 #### 开始监听音频输入 当一切准备就绪后就可以调用 startListening() 方法开启录音模式等待用户的语音指令;而 stopListening() 则用来停止当前会话。 ```java @Override protected void onStart(){ super.onStart(); recognizer.startListening(KWS_SEARCH); } @Override protected void onStop(){ super.onStop(); recognizer.stop(); } ``` 以上操作实现了基本的功能框架构建,对于更复杂的应用场景还可以进一步调整优化,比如自定义回调处理逻辑、增加多轮对话支持等功能特性。 #### 多语言支持 如果希望扩展应用程序以适应不同地区的用户群体,则需额外获取对应的目标语言的声音模型与字典数据,并按照相同的方式完成部署。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值