asr_onnxruntime语音识别模型,实现speech-to-text的转换

asr_onnx

论文

模型结构

image

算法原理

image

数据集

环境配置

光源可拉取推理的docker镜像,在光合开发者社区可下载onnxruntime安装包。asr_onnx推荐的镜像如下:

docker pull image.sourcefind.cn:5000/dcu/admin/base/pytorch:2.1.0-ubuntu20.04-dtk24.04.1-py3.10
cd asr_onnxruntime #进入当前项目目录
docker run -d -t --privileged --device=/dev/kfd --device=/dev/dri/ --network=host --group-add video -v /opt/hyhal:/opt/hyhal:ro -v `pwd`:/mnt --name=asr-test image.sourcefind.cn:5000/dcu/admin/base/pytorch:2.1.0-ubuntu20.04-dtk24.04.1-py3.10
docker exec -it asr-test /bin/bash
cd /mnt
pip install onnx -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install pysoundfile -i https://pypi.tuna.tsinghua.edu.cn/simple

下载模型 (https://models.silero.ai/models/en/en_v5.onnx) 到当前目录,建立wavs文件夹添加测试wav文件。

预训练权重快速下载中心:SCNet AIModels ,项目中的预训练权重可从快速下载通道下载:en_v5

推理

python3 main.py --model_dir="./en_v5.onnx" --wav_dir="./wavs/" --warmup=1
# --wav_dir:需要推理的语音路劲,如"./speech_orig.wav";speech_orig.wav是文件夹中已经存在的语音

result

image

精度

暂无

应用场景

算法类别

语音识别

热点应用行业

交通,金融,医疗,教育,家居

源码仓库及问题反馈

ModelZoo / asr_onnxruntime · GitLab

参考资料

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

技术瘾君子1573

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值