wenet,语音录制转文字

https://github.com/wenet-e2e/wenet

1、github下载源码

2、安装wenet

pip install -r E:\Python_\Excel_file_processing\wenet\requirements.txt   安装wenet所需环境

pip install E:\Python_\Excel_file_processing\wenet  这是源码下载解压路径

3、直接测试

import wenet
import soundfile as sf
import sounddevice as sd
import numpy as np
from scipy.io.wavfile import write

# #读取原始音频文件
# data, samplerate = sf.read('录音.wav')

# 设置录音参数
fs = 16000  # 采样率
duration = 2.0  # 录音持续时间(秒)

# 使用sounddevice库进行实时录音
print("开始录音...")
data = sd.rec(int(duration * fs), samplerate=fs, channels=1)
sd.wait()  # 等待录音完成
print("录音完成.")


# 如果需要,将音频数据转换为16位PCM(这取决于wenet的要求)
if data.dtype != np.int16:
    # 注意:简单地将数据转换为int16可能会导致溢出或截断,因此你可能需要适当地缩放数据
    data_16bit = np.int16(data / np.max(np.abs(data)) * 32767)  # 示例缩放,可能需要调整

# 保存为 WAV 文件
filename = 'recording.wav'
write(filename, fs, data_16bit)

# # 保存为16位PCM WAV文件(如果需要)
# sf.write('converted_audio.wav', data_16bit, myrecording)

model = wenet.load_model('chinese')
result = model.transcribe("recording.wav")
print(result['text'])

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
wenet是一个开源的自动语音识别(ASR)开发库,它为语音识别任务提供了丰富的工具和功能。它支持多种语言和声学模型,并提供了训练和推理的接口,使开发者能够轻松构建和部署自己的语音识别系统。 wenet的设计目标是灵活、高效和易用。它提供了基于PyTorch的模型训练框架,开发者可以根据自己的需求选择合适的模型架构,并通过数据预处理、特征提取和声学模型训练来实现自定义的ASR系统。同时,wenet还提供了训练的调试工具和可视化界面,帮助开发者更好地理解和调优模型。 除了模型训练,wenet还提供了语音识别的推理库,使得开发者能够将训练好的模型应用到实际的语音识别任务中。wenet支持在线和离线的语音识别,具备较好的识别准确率和实时性能。开发者可以使用wenet提供的工具和接口,轻松地构建自己的语音识别应用。 针对wenet的开发和测试,wenet还提供了一套完整的测试程序和数据集,开发者可以使用这些测试程序进行模型验证和性能评估。测试程序涵盖了常见的语音识别任务,并提供了相应的评估指标和结果分析工具,帮助开发者全面了解模型的性能和问题。 总之,wenet是一个功能强大、易用的自动语音识别开发库,它不仅提供了丰富的工具和接口,便于开发者构建自己的语音识别系统,还提供了一套完整的测试程序和数据集,帮助开发者评估和优化模型的性能。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值