作业要求
1、使用audaity软件分析浊音、清音、爆破音的时域及频域特性。
2、对test.rgb(256x256)计算三通道分量各自的熵。
作业一
预备知识:
- 语言学小知识:
浊音:发声时声带产生振动。
清音:发生时声带不产生振动。
爆破音:又称塞音。口腔和鼻腔完全闭合然后极快解除封闭产生的音。
在实验中,为了方便,我分别选择[a][s][p]进行时域频域分析。
类型 | 选择元素 |
---|---|
浊音 | a |
清音 | s |
爆破音 | p |
- 提前下载Audaity软件,利用手机录音机录制浊音、清音、爆破音。(在进行分析前,利用剪辑软件去除掉了语音中多余部分)
- 在导入音频文件时候,需要把文件转为WAV或者AIFF格式
时域分析
浊音[a]:
放大后仔细观察:
1、浊音具有明显的周期性;
2、时域包络相比于浊音来说较为明显。
清音[s]
放大后仔细观察:
1、包络太小,几乎看不出起伏,(图中的观察效果还使用了Audacity工具拉伸包络)
2、没有明显的周期变化。
爆破音[p]
放大后观察:
1、在语音开始阶段,能观察到一个非常剧烈的波动。接着慢慢幅度慢慢变缓,包络起伏也逐渐变小;
2、在很短的一段时间内能观察到爆破音具有一定的周期性,特别观察第二幅图后半部分语音进入平稳阶段,这时周期性较为明显,跟清音具有类似的曲线。
总结:
浊音具有明显的周期性,爆破音在平稳阶段同样具有明显的周期性,情音没有周期性。
爆破音的包络起伏变化最大,其次是浊音,清音的包络起伏十分微弱。
频域分析
注:以下都使用汉宁窗对音频进行分帧加窗
浊音[a]
1、频谱能量主要分布在低频阶段。
2、能够看出明显的共振峰。分析前三个重要的共振峰频率(横坐标)为258Hz、517Hz、772Hz
清音[s]
1、没有明显的共振峰包络
2、除最开始有明显下降外,频谱类似均匀分布
爆破音[p]
1、在低频处能量非常均匀,随后逐渐变小
2、能量集中在低频阶段、高频能量最少
3、由于低频阶段能量最高,在后期无法明显观察出共振峰的起点
作业二
预备知识:
- 熵的计算公式: H ( x ) = − ∑ 0 n p ( x ) l o g 2 p ( x ) . \ H(x) = - \sum_0^n p(x)log_2p(x). H(x)=−0∑np(x)log2p(x).
- RGB图片文件:3通道,按照BGR,BGR,BGR排列而成;
- test文件图像分辨率为256*256,数据格式为每个像素占用3字节。
熵计算
代码区:(使用Visual Studio 2019)
- 在最初统计RGB分量出现次数时,一定要注意RGB文件的排列方式,RGB按照 B-G-R方式排列。
- 借助指针进行移动,遍历整个图像。
#include<stdio.h>
#include <iostream>
#include<malloc.h>
#include<string.h>
using namespace std;
int main()
{
int image_size = 256 * 256;
unsigned char* Y_IN;//原图像
unsigned char* R_IN;//原图像
unsigned char* G_IN;//原图像
unsigned char* B_IN;//原图像
Y_IN = (unsigned char*)malloc(image_size*3);
R_IN = (unsigned char*)malloc(image_size);
G_IN = (unsigned char*)malloc(image_size);
B_IN = (unsigned char*)malloc(image_size);
//按图片RGB分布记录R\G\B各自的值
double R[256] = { 0 };
double G[256] = { 0 };
double B[256] = { 0 };
//计算三通道中出现次数
double proR[256] = { 0 };
double proG[256] = { 0 };
double proB[256] = { 0 };
//计算出现概率
double HR, HG, HB;
HR=HG=HB= 0.0;
FILE* fp;//打开源文件
fopen_s(&fp, "F://数据压缩//test.rgb", "rb");
fread(Y_IN, sizeof(unsigned char), image_size*3 , fp);//读取源文件 fp为Y_IN
//分别用R,G,B三个数组存储三通道各点的值
for (int i = 0,j=0; i < 256 * 256*3 ; i=i+3)
{
B_IN[j] = *(Y_IN + i);
G_IN[j] = *(Y_IN + i + 1);
R_IN[j] = *(Y_IN + i + 2);
j++;
}
//统计R通道里,出现的次数
for (int i = 0; i < 256*256; i++)
{
int color_R = *(R_IN + i);// (Y_IN + index)点的灰度值
int color_G = *(G_IN + i);
int color_B = *(B_IN + i);
R[color_R]++;
G[color_G]++;
B[color_B]++;
}
//计算出现的概率
for (int i = 0; i < 256; i++)
{
proR[i] = R[i] / image_size;
proG[i] = G[i] / image_size;
proB[i] = B[i] / image_size;
}
//计算各自的熵
for (int i = 0; i < 256; i++)
{
if (proR[i] != 0)
HR += - proR[i] * log2(proR[i]);
if (proG[i] != 0)
HG += - proG[i] * log2(proG[i]);
if (proB[i] != 0)
HB += - proB[i] * log2(proB[i]);
}
//输出最后结果
cout << "H(R)=" << HR << endl;
cout << "H(G)=" << HG << endl;
cout << "H(B)=" << HB << endl;
}
最后输出结果为:
总结
第一周作业回顾了上学期数字视音频处理学到的语音知识,包括怎么划分元音,辅音,清音,浊音,爆破音等。同时还复习了数字视音频的实验知识,运用指针读取图片灰度值等。
下一周继续更新~