Vosk是一个基于kaldi的开源语音识别框架,支持多种编程语言和多个平台,易于使用和集成,是做语音识别时很好的选择。使用步骤如下:
下载vosk源码:源码地址。
利用源码编译so库,不会编译的小伙伴可以从这里下载aar包:libvosk.so,然后把文件后缀名从.aar改为.zip,再解压这个文件即可在其中jni目录下找到so库。

删除源码vosk-api-0.3.45\android\lib\src\main\jniLibs这个目录下的文件,把编译好的so库放在这个目录下。
下载官方提供的模型文件:vosk-model-small-cn-0.22,会使用kaldi训练模型的伙伴也可以自行生成自己的模型文件。然后在vosk-api-0.3.45\android\lib\src\main目录下新建assets目录,把模型文件放在assets目录下。
新建一个Android工程,import module把vosk-api-0.3.45\android\lib这个导入到项目中。
修改module build.gradle文件,加入以下代码:
apply plugin: 'com.android.library'
apply plugin: 'maven-publish'
...
...
dependencies {
api 'net.java.dev.jna:jna:4.4.0@aar'
}
//preBuild.dependsOn buildVosk
publishing {
publications {
aar(MavenPublication) {
artifactId = archiveName
artifact("$buildDir/outputs/aar/$archiveName-release.aar")
pom {
name = pomName
description = pomDescription
}
//generate pom nodes for dependencies
pom.withXml {
def dependenciesNode = asNode().appendNode('dependencies')
configurations.implementation.allDependencies.each { dependency ->
if (dependency.name != 'unspecified') {
def dependencyNode = dependenciesNode.appendNode('dependency')
dependencyNode.appendNode('groupId', dependency.group)
dependencyNode.appendNode('artifactId', dependency.name)
dependencyNode.appendNode('version', dependency.version)
}
}
}
}
}
}
tasks.register('genUUID') {
def uuid = UUID.randomUUID().toString()
def odir = file("$buildDir/generated/assets/vosk-model-small-cn")
def ofile = file("$odir/uuid")
doLast {
mkdir odir
ofile.text = uuid
}
}
preBuild.dependsOn(genUUID)
其中def odir = file("$buildDir/generated/assets/vosk-model-small-cn")这里的名称要和自己的模型名称一致。
module新建VoskClient.java,主要用来对外部提供模型初始化和语音识别的接口,模型初始化的接口如下:
public void initModel() {
StorageService.unpack(context.getApplicationContext(), "vosk-model-small-cn", "model",
(model) -> {
this.model = model;
},
(exception) -> Log.e("Voice Recognization ", "initModel: unpack error"));
}
语音识别的接口如下:
//识别麦克风语音,需要动态申请RECORD_AUDIO权限
private void recognizeMicrophone() {
if (speechService != null) {
speechService.stop();
speechService = null;
} else {
try {
Recognizer rec = new Recognizer(model, 16000.0f);
speechService = new SpeechService(rec, 16000.0f);
speechService.startListening(this);
} catch (IOException e) {
}
}
}
//识别文件语音,需要动态申请READ_EXTERNAL_STORAGE权限,文件须是pcm编码格式的wav文件
private void recognizeFile() {
if (speechStreamService != null) {
speechStreamService.stop();
speechStreamService = null;
} else {
try {
//16000.f为采样率,设置为你自己文件的采样率
Recognizer rec = new Recognizer(model, 16000.f, "[\"one zero zero zero one\", " +
"\"oh zero one two three four five six seven eight nine\", \"[unk]\"]");
InputStream ais = getAssets().open(
"yourfile.wav");
if (ais.skip(44) != 44) throw new IOException("File too short");
speechStreamService = new SpeechStreamService(rec, ais, 16000);
speechStreamService.start(this);
} catch (IOException e) {
}
}
}
把module打包成aar包,就可以在自己任意的项目中使用了。
注:如果打包成aar包使用,那么还需要在app的gradle文件中加入依赖:
dependencies {
api 'net.java.dev.jna:jna:4.4.0@aar'
......
}
本次内容到这里就结束了,下篇文章分析vosk android java层的源码。