语音识别实战(python代码)(一)_python 语音识别

在汽车领域,智能语音已成人机交互关键环节,并从车内交互衍生车外交互,从单模交互走向多模交互,从被动交互发展为主动交互,为车企提供全栈技术赋能。

在消费者产品领域,AI学习机、翻译笔等AI+学习产品帮助学生学习减负增效;智能录音笔、智能办公本、智能鼠标等AI+办公产品深受职场人士欢迎;AI翻译机、智能麦克风、智能语音键盘、智能耳机、智能助听器等AI+生活产品,让更多人享受AI科技的便利。

语音的发展路径:

针对智能语音多学科交叉的学科特性,研究人员需要探索新原理、新机制、新材料、新工艺和新器件,集成创新推动核心技术进步。另一方面,语音技术需要进一步向深度理解延伸。“更先进的语音交互系统不仅要 “能听会说” ,还要深度地去理解人的信息。有了明确的发展方向,才能促进智能语音技术持续突破。

二、Python 语音识别

(1)、文本转换为语音

(a)、使用 pyttsx

安装 pyttsx 包

  • import pyttsx3 as pyttsx
import pyttsx3 as pyttsx
engine = pyttsx.init()
engine.say('I can because i think i can. 逆境清醒 Life is not all roses.人生并不是康庄大道。')
engine.runAndWait()

如果你安装没有出错,打开电脑的声音,就能听到语音(把我们刚才在代码里写的文本文字转换成语音播报出来了)

代码分析:

pyttsx3通过初始化来获取语音引擎,在调用init后会返回一个engine对象。

import pyttsx3

#初始化语音引擎
engine = pyttsx3.init()

设置语速、音量等参数:

engine.setProperty(‘rate’, 100)   #设置语速
engine.setProperty(‘volume’,0.6)  #设置音量

查看语速、音量等参数

rate = engine.getProperty(‘rate’)
print(f’语速:{rate}‘)
volume = engine.getProperty(‘volume’)   
print (f’音量:{volume}’)

完整实例代码:

import pyttsx3 as pyttsx
engine = pyttsx.init()
engine.say('I can because i think i can. 逆境清醒 Life is not all roses.人生并不是康庄大道。')
rate = engine.getProperty('rate')
print(f'语速:{rate}')
volume = engine.getProperty('volume')   
print (f'音量:{volume}') 
engine.runAndWait()

运行结果为:

查看语音合成器
voices = engine.getProperty(‘voices’) 
for voice in voices:
    print(voice)

合成器的主要参数如下:

合成器的主要参数如下:
age
gender
id
languages
name
语音合成器

#设置第一个语音合成器
voices = engine.getProperty(‘voices’) 
engine.setProperty(‘voice’,voices[0].id)

语音播报:

engine.say(‘I can because i think i can. 逆境清醒 Life is not all roses.人生并不是康庄大道。’)
engine.runAndWait()
engine.stop()

import pyttsx3
engine = pyttsx3.init() #初始化语音引擎
engine.say('I can because i think i can. 逆境清醒 Life is not all roses.人生并不是康庄大道。')
rate = engine.getP
  • 25
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度学习-语音识别是一种利用神经网络模型进行语音识别的技术。Python语言在深度学习领域有广泛应用,并提供了多个相关框架,如TensorFlow和PyTorch,便于实现语音识别任务。 在进行深度学习-语音识别实战时,首先需要准备语音数据集。可以使用已有的公开数据集,也可以自己收集。常用的数据集包括LibriSpeech、TIMIT和Aurora4等。 接下来,需要将语音数据集进行预处理。预处理步骤包括数据清洗、标签处理和特征提取。数据清洗可以剔除噪音和异常数据,标签处理主要是将语音数据与对应的文字标签进行对齐,特征提取则是将语音信号转换为机器学习算法可以处理的数值特征,常用的特征提取方法有Mel频谱特征和MFCC等。 然后,需要选择合适的神经网络模型进行语音识别。常用的模型包括基于卷积神经网络(CNN)和循环神经网络(RNN)的混合模型。模型的选择要根据数据集的规模和任务需求进行。 在实际实现中,可以利用Python的深度学习框架(如TensorFlow和PyTorch)来构建和训练神经网络模型。框架提供了高级的API和函数,可以方便地定义模型结构、进行参数优化和模型评估。 训练完成后,可以使用训练好的模型进行语音识别。使用Python进行语音识别时,可以使用语音信号进行预测,并得到相应的文本结果。 总之,深度学习-语音识别实战是一个复杂的任务,但借助Python的强大生态系统和深度学习框架,可以更高效地进行模型训练和识别任务的实现。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值