我的需求是找到一个能用的语音识别模型用来把学习视频的音频转为字幕文件,以更好地整理学习资料。于是我尝试了下面的 wenet。
文档:
https://github.com/wenet-e2e/wenet
初步试了试网页版,不太准呀。
在windows 的 wsl 内:
wget https://wenet-1256283475.cos.ap-shanghai.myqcloud.com/models/aishell2/20210618_u2pp_conformer_libtorch.tar.gz
tar -xf 20210618_u2pp_conformer_libtorch.tar.gz
model_dir=$PWD/20210618_u2pp_conformer_libtorch
docker run --rm -it -p 10086:10086 -v $model_dir:/home/wenet/model wenetorg/wenet-mini:latest bash /home/run.sh
然后,在windows 命令行内:
git clone https://github.com/wenet-e2e/wenet.git
然后,用浏览器打开windows目录下的:wenet\runtime\LibTorch\web\templates\index.html
输入:
ws://127.0.0.1:10086
然后,放外音就可以识别了。
目前我测试的效果并不好!当然,下次试试别的方式。