自建AI小助手之语音识别

写在前面

本文关注于使用层面,主要分享如何快速上手自建自己的语音识别服务,而不会关注更底层的原理层面,如有需要,后续再写专文研究。

什么是语音识别

语音识别,通常称为自动语音识别(AutomaticSpeechRecognition,ASR),主要是将人类语音中的词汇内容转换为计算机可读的输入,一般都是可以理解的文本内容,也有可能是二进制编码或者字符序列。但是,我们一般理解的语音识别其实都是狭义的语音转文字的过程,简称 语音转文本识别(Speech-To-Text,STT)更合适,这样就能与 语音合成(Text-To-Speech,TTS)对应起来。简单来说,就是将语音转变为可读的文字。

image.png

模型测试

测试环境

Linux (ubuntu 20.04)
Standard D4s v3 (4 vcpus, 16 GiB memory)
image.png
模型:阿里达摩院ModelScope

在这里插入图片描述

环境安装

安装后,可快速使用阿里云达摩院其他模型

第一步:安装Anaconda

Anaconda是一个开源的 Python 发行版本,用来管理管理不同的包,切换不同的环境

下载anaconda.sh
curl --output anaconda.sh https://repo.anaconda.com/archive/Anaconda3-2022.05-Linux-x86_64.sh
安装anaconda.sh
bash anaconda.sh
遇见如下信息按Enter继续
bash anaconda.sh
Welcome to Anaconda3 2022.05
In order to continue the installation process, please review the license
agreement.
Please, press ENTER to continue
>>> 
阅读完协议并同意

image.png
image.png

确认安装位置,并按Enter继续

image.png

等待几分钟后将看到以下信息,输入yes并按Enter继续

image.png

出现如下信息代表安装完成

image.png

注意:关闭当前命令行,并重新打开,刚刚安装和初始化Anaconda设置才可以生效。

重连后看到用户名前出现(base)即算成功

image.png

第二步:执行如下命令为modelscope library创建对应的python环境

conda create -n modelscope python=3.7
conda activate modelscope

image.png
image.png
出现下图即为安装成功
image.png

第三步:安装Tensorflow

# 仅支持 CPU 的版本
pip install --upgrade tensorflow==1.15 -i https://pypi.tuna.tsinghua.edu.cn/simple

出现下图即为安装成功
image.png

语音模型安装

模型文件:Paraformer语音识别-中文-通用-16k-离线-large-pytorch
其他模型可自行在modelscope选择:ModelScope 魔搭社区

第一步:安装 PyTorch

这是一个开源的 Python 机器学习库,基于 Torch,用于自然语言处理等应用程序。

pip install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple

image.png

第二步:下载并安装ModelScope library

pip install setuptools-scm  -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install "modelscope[audio]" -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html -i https://pypi.tuna.tsinghua.edu.cn/simple

image.png
image.png
出现如下信息即算安装成功,有部分异常无需关心
image.png
注意:当前大部分语音模型需要在Linux环境上使用,并且推荐使用python3.7 + tensorflow 1.x的组合。

第三步:验证

创建test.py文件并执行命令python test.py
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

p = pipeline('auto-speech-recognition', 'damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch')
result = p('https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav',)
print(result)
出现ModuleNotFoundError: AutomaticSpeechRecognitionPipeline: No module named 'funasr’异常可使用如下方式解决
git clone https://github.com/alibaba/FunASR.git && cd FunASR
pip install -e ./
获取推理结果

image.png更多实用功能请关注公众号:binary技术小站,免费无限制不限量无套路适用AI畅聊
识别下方二维码,加群参与更多交流
在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值