DeepLearing—CV系列（二十四）——语言识别入门

最新推荐文章于 2022-11-18 11:28:39 发布

wa1tzy

最新推荐文章于 2022-11-18 11:28:39 发布

阅读量238

点赞数

分类专栏：深度学习 AI 文章标签：信号处理人工智能语音识别 pytorch 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wa1tzy/article/details/107047659

版权

深度学习同时被 2 个专栏收录

81 篇文章 18 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

79 篇文章 9 订阅

订阅专栏

本文介绍了语音识别的基础知识，包括语言识别的多个应用领域，如语言识别、语言唤醒等；详细讲解了音频参数，如采样率、采样精度和通道数；讨论了波形的采样原理与奈奎斯特定理；最后提到了常见的音频格式，如PCM、wav和mp3及其特点。

摘要由CSDN通过智能技术生成

文章目录

一、语言识别的几类领域
二、音频参数
三、波形
四、音频格式

一、语言识别的几类领域

（1）语言识别
（2）语言唤醒
（3）语言命令
（4）声纹识别
（5）TTS（文字转语音）
（6）语音转图像
（7）生成歌曲

二、音频参数

（1）采样率：每秒采集数据的次数
（2）采样精度：每次采集数据的位数
1字节（8位）：0到255（无符号）-128到127（有符号）
2字节（16位）：0到65535 -32768到32765（有符号）
4字节（32位）：0到4294967295 -2147483648到2147483647（有符号）
（3）通道数：存在几路音频
左声道、右声道等等
（4）比特率

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
DeepLearing—CV系列（二十四）——语言识别入门

文章目录一、语言识别的几类领域二、音频参数三、波形四、音频格式一、语言识别的几类领域（1）语言识别（2）语言唤醒（3）语言命令（4）声纹识别（5）TTS（文字转语音）（6）语音转图像（7）生成歌曲二、音频参数（1）采样率：每秒采集数据的次数（2）采样精度：每次采集数据的位数1字节（8位）：0到255（无符号）-128到127（有符号）2字节（16位）：0到65535 -32768到32765（有符号）4字节（32位）：0到4294967295 -2147483648到214
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

wa1tzy 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。