一、转换格式
1.pcm音频转wav音频
输入音频为raw文件,要指定音频格式,raw音频没有指定音频格式的文件头
sox -t raw -c 2 -e signed-integer -b 16 -r 16000 raw.pcm wav.wav
2.wav音频转pcm音频
sox -t wav wav.wav -t raw raw.pcm
3.其他格式
可以转换mp3格式
sox wav.wav MP3.mp3
4.参数
参数 | 值及含义 |
---|---|
-t | 音频类型,常用raw【pcm格式音频】 wav【wav音频】 |
-c | 通道数,音频是几声道的,根据实际音频来,可用sox或audition软件查看,常用值 1 2 4 6 |
-e | 编码格式 常用 signed-integer |
-b | 采样位数,常用16,8位一个字节,采样位数为2个字节 |
-r | 采样率,常用16000 |
二、剪切
sox 要处理的音频 剪切部分保存音频 trim 开始剪切位置时间点 持续时间
时间点可以有两种描述方式
1.直接用秒数(int或者float格式)
2.用
start_time=10
duration=4
sox before.wav after.wav trim $start_time $duration
三、提取声道
sox 原始音频 抽取声道保存音频 remix 抽取的声道
抽取声道序列索引从1开始
sox before.wav after.wav remix 1 # 抽取左声道
sox before.wav after.wav remix 2 # 抽取右声道
sox before.wav after.wav remix 1,2 # 抽取左右声道融合成单声道输出
sox before.wav after.wav remix 1 2 # 抽取左右声道单独输出成双声道音频
sox before.wav after.wav remix 1,2 3,4 # 抽取左右声道融合, 3 4声道融合,最终输出为双声道音频
四、组合音频
-M 合并文件,两个单声道音频合并后是一个双声道音频
sox -M left.wav right.wav final_double.wav
-m 混合音频,两个单声道音频混合后输出仍然是一个单声道音频
sox -m left.wav right.wav final_mono.wav
五、假造数据
1.生成静音数据
-n 表示没有输入
sox -n -c 1 -r 16000 -b 16 -e signed-integer sil.wav trim 0 1.0
六、改变音频音量
sox -v 倍数 原始音频 改变后音频
当倍数小于1,则是减小音量,
当倍数大于1,则是增大音量。
sox -v 0.5 before.wav after.wav
注意:
最大化音频音量,但是不要出现削波
sox foo.wav -n stat -v 2> vc
sox -v `cat vc` foo.wav foo-maxed.wav
七、音频归一化处理
sox input.wav output.wav norm -3
norm -3 能使音频波形在-3db范围内,规整数据到一致的音量范围。