在Ubuntu下实现魔搭社区中的【Paraformer语音识别-中文-通用-16k-离线-large-onnx】

在Ubuntu下实现魔搭社区中的【Paraformer语音识别-中文-通用-16k-离线-large-onnx】

本文档只是为了记录本人第一次使用docker跑模型

默认已经在Ubuntu下安装好docker ,可以通过一下指令来查看是否已经安装成功docker

$ docker version
$ sudo docker version

1 环境搭建

如果是第一次使用这个模型,打开【Paraformer语音识别-中文-通用-16k-离线-large-onnx】 ,执行镜像启动服务端启动两个部分。

执行镜像启动,在主目录下会出现文件夹 funasr-runtime-resources
在这里插入图片描述
而终端则会进入镜像所创建的容器当中
终端显示
容器启动后,继续在终端继续执行服务端启动,启动成功后会出现如下输出
在这里插入图片描述

2 案例测试

继续在终端执行指令,获取案例测试包

$ wget https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/sample/funasr_samples.tar.gz

此时,应该注意这里下载的是一个压缩文件,需要解压后才能对相关案例进行测试,否则会报错找不到文件,以下是解压指令

$ tar -zxvf funasr_samples.tar.gz

通过终端操作已经可以查看到需要测试的语音文件

在这里插入图片描述

随后只需要找到对应的python执行文件,在该文件路径下执行python文件即可,该文件所处路径为:
/FunASR/runtime/python/websocket

在这里插入图片描述
随后执行代码如下指令,这里需要注意的是,执行之前需要找到对应的python文件所处的文件夹,并在该文件夹下执行对应的python文件。只需要注意在运行测试案例的时候需要注意一下语音文件asr_example.wav所处的文件路径。

$ python3 funasr_wss_client.py --host "127.0.0.1" --port 10095 --mode offline --audio_in "../../samples/audio/asr_example.wav"

具体执行及测试结果如下所示:
在这里插入图片描述

最后可以通过 exit 退出容器

3 退出已创建的容器后再次进入容器

使用 docker ps 可以查看正在运行的容器,docker ps -a 可以查看所有已经创建好的容器

在这里插入图片描述

对于已经退出关闭的容器,若想要再次进入该容器,首先需要重启容器,然后再通过容器ID进入容器,具体执行命令如下:

$ docker restart 8a71a368994c      #重启容器,语法为: docker restart <CONTAINER ID>
$ dockers attach 8a71a368994c      #重连容器,语法为: docker attach <CONTAINER ID>

在这里插入图片描述

其他的 docker 使用方法可以查看 Docker容器使用

### Paraformer语音识别模型介绍 Paraformer是一种高识别率、高计算效率的单轮非自回归端到端语音识别模型[^1]。这种模型设计旨在解决传统多轮解码器带来的延迟问题,通过一次性预测整个序列来提高推理速度和降低计算成本。 #### 主要特点 - **高效性**:相比传统的基于Transformer架构下的自回归模型,Paraformer减少了逐词生成的时间消耗。 - **准确性**:保持甚至提升了对于不同口音以及复杂环境下的鲁棒性和精确度。 - **灵活性**:支持多种应用场景,无论是在线还是离线部署都能良好适应。 ### 使用方法 为了在本地环境中运行Paraformer模型,在Ubuntu操作系统上可以按照如下方式操作: #### 准备工作 首次使用前需完成镜像拉取与服务初始化两步操作[^2]。具体来说就是获取预构建好的Docker容器并启动必要的后台进程以准备就绪状态等待接收输入数据。 #### 执行命令 以下是用于启动所需组件的具体Shell指令: ```bash docker pull registry.cn-hangzhou.aliyuncs.com/modelscope/paraformer:latest docker run --name paraformer -p 8097:8097 -itd registry.cn-hangzhou.aliyuncs.com/modelscope/paraformer:latest /bin/bash cd /root/inference && bash start.sh ``` #### 调用API接口 当一切设置完毕之后就可以调用相应的Web API来进行实际的任务处理了。例如利用Python脚本发送HTTP请求给服务器从而实现音频转文字的功能[^3]: ```python import requests url = "http://localhost:8097/api/predict" files = {"audio": open('example.wav', 'rb')} response = requests.post(url, files=files) print(response.json()) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值