数据压缩第一周作业——Audaity音频文件分析与RGB文件熵计算

Adore11

已于 2022-03-15 18:58:32 修改

阅读量477

点赞数

分类专栏：数据压缩文章标签：语音识别人工智能

于 2022-03-15 15:56:44 首次发布

本文链接：https://blog.csdn.net/Adore11/article/details/123496297

版权

数据压缩专栏收录该内容

10 篇文章 3 订阅

订阅专栏

数据压缩第一周作业

作业要求

作业要求

1、使用audaity软件分析浊音、清音、爆破音的时域及频域特性。
2、对test.rgb（256x256）计算三通道分量各自的熵。

作业一

预备知识：

语言学小知识：
浊音：发声时声带产生振动。
清音：发生时声带不产生振动。
爆破音：又称塞音。口腔和鼻腔完全闭合然后极快解除封闭产生的音。
在实验中，为了方便，我分别选择[a][s][p]进行时域频域分析。

类型	选择元素
浊音	a
清音	s
爆破音	p

提前下载Audaity软件，利用手机录音机录制浊音、清音、爆破音。（在进行分析前，利用剪辑软件去除掉了语音中多余部分）
在导入音频文件时候，需要把文件转为WAV或者AIFF格式

时域分析

浊音[a]：
在这里插入图片描述

放大后仔细观察：

在这里插入图片描述

1、浊音具有明显的周期性；
2、时域包络相比于浊音来说较为明显。

清音[s]
在这里插入图片描述

放大后仔细观察：
在这里插入图片描述

1、包络太小，几乎看不出起伏，（图中的观察效果还使用了Audacity工具拉伸包络）
2、没有明显的周期变化。

爆破音[p]

在这里插入图片描述
放大后观察：

1、在语音开始阶段，能观察到一个非常剧烈的波动。接着慢慢幅度慢慢变缓，包络起伏也逐渐变小；
2、在很短的一段时间内能观察到爆破音具有一定的周期性，特别观察第二幅图后半部分语音进入平稳阶段，这时周期性较为明显，跟清音具有类似的曲线。

总结：
浊音具有明显的周期性，爆破音在平稳阶段同样具有明显的周期性，情音没有周期性。
爆破音的包络起伏变化最大，其次是浊音，清音的包络起伏十分微弱。

频域分析

注：以下都使用汉宁窗对音频进行分帧加窗
浊音[a]
在这里插入图片描述

1、频谱能量主要分布在低频阶段。
2、能够看出明显的共振峰。分析前三个重要的共振峰频率（横坐标）为258Hz、517Hz、772Hz

清音[s]
在这里插入图片描述

1、没有明显的共振峰包络
2、除最开始有明显下降外，频谱类似均匀分布

爆破音[p]
在这里插入图片描述

1、在低频处能量非常均匀，随后逐渐变小
2、能量集中在低频阶段、高频能量最少
3、由于低频阶段能量最高，在后期无法明显观察出共振峰的起点

作业二

预备知识：

熵的计算公式： $\ H(x) = - \sum_0^n p(x)log_2p(x).$
RGB图片文件：3通道，按照BGR,BGR,BGR排列而成；
test文件图像分辨率为256*256，数据格式为每个像素占用3字节。

熵计算

代码区：（使用Visual Studio 2019）

在最初统计RGB分量出现次数时，一定要注意RGB文件的排列方式，RGB按照 B-G-R方式排列。
借助指针进行移动，遍历整个图像。

#include<stdio.h>
#include <iostream>
#include<malloc.h>
#include<string.h>
using namespace std;

int main()
{
	int image_size = 256 * 256;
    unsigned char* Y_IN;//原图像
	unsigned char* R_IN;//原图像
	unsigned char* G_IN;//原图像
	unsigned char* B_IN;//原图像
	Y_IN = (unsigned char*)malloc(image_size*3);
	R_IN = (unsigned char*)malloc(image_size);
	G_IN = (unsigned char*)malloc(image_size);
	B_IN = (unsigned char*)malloc(image_size);
	//按图片RGB分布记录R\G\B各自的值
	double R[256] = { 0 };
	double G[256] = { 0 };
	double B[256] = { 0 };
	//计算三通道中出现次数
	double proR[256] = { 0 };
	double proG[256] = { 0 };
	double proB[256] = { 0 };
	//计算出现概率
	double HR, HG, HB;
	HR=HG=HB= 0.0;
	
	FILE* fp;//打开源文件
	fopen_s(&fp, "F://数据压缩//test.rgb", "rb");

	fread(Y_IN, sizeof(unsigned char), image_size*3 , fp);//读取源文件 fp为Y_IN
	//分别用R,G,B三个数组存储三通道各点的值
	for (int i = 0,j=0; i < 256 * 256*3 ; i=i+3)
	{
		B_IN[j] = *(Y_IN + i);
		G_IN[j] = *(Y_IN + i + 1);
		R_IN[j] = *(Y_IN + i + 2);
		j++;
	}
	//统计R通道里，出现的次数
	for (int i = 0; i < 256*256; i++)
	{
		int color_R = *(R_IN + i);// (Y_IN + index)点的灰度值
		int color_G = *(G_IN + i);
		int color_B = *(B_IN + i);
		R[color_R]++;
		G[color_G]++;
		B[color_B]++;
	}
	//计算出现的概率
	for (int i = 0; i < 256; i++)
	{
		proR[i] = R[i] / image_size;
		proG[i] = G[i] / image_size;
		proB[i] = B[i] / image_size;
	}
	//计算各自的熵
	for (int i = 0; i < 256; i++)
	{
		if (proR[i] != 0)
			HR += - proR[i] * log2(proR[i]);
		if (proG[i] != 0)
			HG += - proG[i] * log2(proG[i]);
		if (proB[i] != 0)
			HB += - proB[i] * log2(proB[i]);
	}
	//输出最后结果
	cout << "H(R)=" << HR << endl;
	cout << "H(G)=" << HG << endl;
	cout << "H(B)=" << HB << endl;
}