对于纯粹的人声旋律,从语音学的角度来分析会方便你寻找每个音的音头和音尾,方便扒谱。
下面是从歌曲开头的人声音频中截取出的波形,放得很大。
如果bpm在100-200这个范围,让大概四分之一拍的波形铺在你的窗口上,对比会更加明显,辅音会看起来非常致密,而元音已经能够看出有着明显的上下波动,可以根据这些特征来识别元音与辅音。

普通话里所有的韵母、还有l r m n以及与韵母i和u同音的y和w这六个声母,声带会有明显振动,
因此从波形图上看基本上都是上图黄色框内的特点
其他的声母,或多或少都是带有红框内波形的特征的,我们下面会逐个说明
从听感上,左边红框中的辅音与黄框中的元音组合在一起,形成了一个音节

这是同样波形对应的语谱图,元音部分,语谱图底下明显很亮的低频线,
而前后两个辅音的部分在较高频段比较亮。
这是因为元音是声带振动发声,基频响度高,因此在波形上能够呈现出大幅度、较低频的振动;
而辅音基本上是口腔阻塞而成,大多是各种湍流声,没有固定的基频,频率普遍很高。
Cubase虽然也可以通过自带的analysis插件呈现语谱图,但并不方便,其他的音频处理软件比如Adobe的AU(上面这张图就是放到AU里截取的),你可以同时观察波形和语谱图(也有人叫频谱图),这样就更加直观。
比如扒谱示范的这首歌的提取伴奏是这个样子:

说到语谱图,它实际上是通过二位平面,表达三维信息,纵轴频率、横轴时间,另外一个维度用颜色表示,颜色深,就代表对应的时间下,该频率分量占比越大,声音能量越强。
关于声音的高频低频的物理原理呀、本来是纵波怎么会用看起来像横波这种波形图展示呀、傅里叶变换时怎么搞出频谱图的呀、时域和频域各自分析的都是什么呀等等问题,这里先默认大家都基本清楚。不清楚请在评论区提问,我会对应具体解释,后面如果有写相关文档,也会把链接放过来。
谱务组的友友也可以直接线上询问某位民乐团位扒谱机。质疑扒谱机、理解扒谱机、成为扒谱机!(刚刚扒谱机发了个癫,现在回过神来了)
频谱,做音乐的很常见到了——

而语谱图最早是语言学的领域的称呼,它是把每个时间微元内的“频谱”纵坐标通过颜色记录,然后把频率搬到纵轴,添加横轴的时间,累计获得一张记录发音全过程的图像。
鉴于大家是在Cubase上进行扒谱,看语谱图并不方便,就不介绍过多了。
一些能在波形上“看得出来”的特征,大家能够“认得出来”便好。
比如bp dt gk 这三对爆破音,在频谱图和波形图上会表现为一个突然的脉冲,当然,歌手咬字顺畅也不会故意去强调这个音头,所以可能并不是很明显。
至于每一对的两个辅音的区别,注意不是清辅音和浊辅音的区别。在汉语拼音里他们都是清辅音,只是“送气”与“不送气”的区别而已。(注意很多外国话是有分清浊辅音的,一些中国方言里也有,的,只是普通话之分送不送气。)
在发声方式上,我们可以理解成前者bdg使用口腔气流爆破,后者ptk使用肺部气流爆破(大部分的喷麦声就是这三个辅音造成的),这样就造成了听感上的区别。

再比如,像 f h x s sh 这些摩擦音,表现为持续一段时间的能量分布,不像爆破音那样是突然的脉冲,其中听感比较明显的又x、s、sh,这也是很多混音师所说的“齿音”,
关于爆破音和摩擦音的对比,上图——

从语谱图上可以很明显地发现,在p成阻的那一时刻,音头很明显,而后面一直是以“啊”的口型发“h”的送气声,爆破带来的高频呈现消减的趋势;
而s则持续摩擦,高频稍有一个逐渐起来的趋势,持阻时间内一直很稳定且丰富。
而他们的结合:破擦音,比如jqzczhch等等,ai告诉我,他们的特点是是首先爆破然后摩擦,表现为先有一个类似爆破音的突然脉冲,紧接着是一段类似摩擦音的持续能量分布?
我自己朗读后,观察频谱并试听,发现似乎爆破感很少,感觉我所读的像是更为齿化的摩擦音,甚至开始怀疑我的普通话是否标准……不知哪位大佬可以帮忙解惑。
另外一个很有趣的现象,单独框选白色区域试听时,人脑对这个音的识别是zi,两者的差距只有送气时间而已,另外,对于c这个辅音音(ts)超过了爆破音头这么久却没有形成s的听感,是否也可以从侧面说明这个音在持阻阶段也被充分t化了?
于是遇到困难就摆烂的我决定文档写到这里就收工了。
当熟悉了这些辅音的波形在时间上的特征,你就可以从波形上锁定它们。
在你扒谱寻找每个字音头的时候,就能够清楚地判断每个音的时长;修音的时候也可以针对性地对具体的音频块进行衰减。
关于具体的元音辅音在频谱图上是怎样呈现的,可以参考:
不同元音辅音在声音频谱的表现是什么样子? - 王赟 Maigo的回答 - 知乎
(先写到这儿,随时补充)