【超详细】Cubase扒谱引出的语音学探讨

原创已于 2025-07-08 02:17:09 修改 · 734 阅读

·

11

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#matlab #开发语言

于 2025-07-08 02:13:57 首次发布

【英语】妈妈再也不用担心我的学习专栏收录该内容

9 篇文章

订阅专栏

对于纯粹的人声旋律，从语音学的角度来分析会方便你寻找每个音的音头和音尾，方便扒谱。

下面是从歌曲开头的人声音频中截取出的波形，放得很大。

如果bpm在100-200这个范围，让大概四分之一拍的波形铺在你的窗口上,对比会更加明显，辅音会看起来非常致密，而元音已经能够看出有着明显的上下波动，可以根据这些特征来识别元音与辅音。

在波形图的视角上看，
普通话里所有的韵母、还有l r m n以及与韵母i和u同音的y和w这六个声母，声带会有明显振动，
因此从波形图上看基本上都是上图黄色框内的特点

其他的声母，或多或少都是带有红框内波形的特征的，我们下面会逐个说明
从听感上，左边红框中的辅音与黄框中的元音组合在一起，形成了一个音节

来看频谱，
这是同样波形对应的语谱图，元音部分，语谱图底下明显很亮的低频线，
而前后两个辅音的部分在较高频段比较亮。

这是因为元音是声带振动发声，基频响度高，因此在波形上能够呈现出大幅度、较低频的振动；

而辅音基本上是口腔阻塞而成，大多是各种湍流声，没有固定的基频，频率普遍很高。

Cubase虽然也可以通过自带的analysis插件呈现语谱图，但并不方便，其他的音频处理软件比如Adobe的AU(上面这张图就是放到AU里截取的)，你可以同时观察波形和语谱图（也有人叫频谱图），这样就更加直观。

比如扒谱示范的这首歌的提取伴奏是这个样子：

哪里强、哪里弱，哪里高频丰富哪里低频明显都一目了然

说到语谱图，它实际上是通过二位平面，表达三维信息，纵轴频率、横轴时间，另外一个维度用颜色表示，颜色深，就代表对应的时间下，该频率分量占比越大，声音能量越强。

关于声音的高频低频的物理原理呀、本来是纵波怎么会用看起来像横波这种波形图展示呀、傅里叶变换时怎么搞出频谱图的呀、时域和频域各自分析的都是什么呀等等问题，这里先默认大家都基本清楚。不清楚请在评论区提问，我会对应具体解释，后面如果有写相关文档，也会把链接放过来。

谱务组的友友也可以直接线上询问某位民乐团位扒谱机。质疑扒谱机、理解扒谱机、成为扒谱机！（刚刚扒谱机发了个癫，现在回过神来了）

频谱，做音乐的很常见到了——

它是一个时刻的声音中不同频率分量的能量值，横坐标频率，纵坐标分贝。

而语谱图最早是语言学的领域的称呼，它是把每个时间微元内的“频谱”纵坐标通过颜色记录，然后把频率搬到纵轴，添加横轴的时间，累计获得一张记录发音全过程的图像。

鉴于大家是在Cubase上进行扒谱，看语谱图并不方便，就不介绍过多了。

一些能在波形上“看得出来”的特征，大家能够“认得出来”便好。

比如bp dt gk 这三对爆破音，在频谱图和波形图上会表现为一个突然的脉冲，当然，歌手咬字顺畅也不会故意去强调这个音头，所以可能并不是很明显。

至于每一对的两个辅音的区别，注意不是清辅音和浊辅音的区别。在汉语拼音里他们都是清辅音，只是“送气”与“不送气”的区别而已。（注意很多外国话是有分清浊辅音的，一些中国方言里也有，的，只是普通话之分送不送气。）

在发声方式上，我们可以理解成前者bdg使用口腔气流爆破，后者ptk使用肺部气流爆破（大部分的喷麦声就是这三个辅音造成的），这样就造成了听感上的区别。

VOT就是从爆破开始到辅音结束、元音开始发声的时间，送气清辅音要长于不送气清辅音

再比如，像 f h x s sh 这些摩擦音，表现为持续一段时间的能量分布，不像爆破音那样是突然的脉冲，其中听感比较明显的又x、s、sh，这也是很多混音师所说的“齿音”，

关于爆破音和摩擦音的对比，上图——

左：pa（爆破音）右：sa（摩擦音）

从语谱图上可以很明显地发现，在p成阻的那一时刻，音头很明显，而后面一直是以“啊”的口型发“h”的送气声，爆破带来的高频呈现消减的趋势；

而s则持续摩擦，高频稍有一个逐渐起来的趋势，持阻时间内一直很稳定且丰富。

而他们的结合：破擦音，比如jqzczhch等等，ai告诉我，他们的特点是是首先爆破然后摩擦，表现为先有一个类似爆破音的突然脉冲，紧接着是一段类似摩擦音的持续能量分布？

我自己朗读后，观察频谱并试听，发现似乎爆破感很少，感觉我所读的像是更为齿化的摩擦音，甚至开始怀疑我的普通话是否标准……不知哪位大佬可以帮忙解惑。

另外一个很有趣的现象，单独框选白色区域试听时，人脑对这个音的识别是zi，两者的差距只有送气时间而已，另外，对于c这个辅音音（ts）超过了爆破音头这么久却没有形成s的听感，是否也可以从侧面说明这个音在持阻阶段也被充分t化了？

于是遇到困难就摆烂的我决定文档写到这里就收工了。

当熟悉了这些辅音的波形在时间上的特征，你就可以从波形上锁定它们。

在你扒谱寻找每个字音头的时候，就能够清楚地判断每个音的时长；修音的时候也可以针对性地对具体的音频块进行衰减。

关于具体的元音辅音在频谱图上是怎样呈现的，可以参考：

不同元音辅音在声音频谱的表现是什么样子？ - 王赟 Maigo的回答 - 知乎

（先写到这儿，随时补充）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。