2024年最全【模式识别】解锁降维奥秘：深度剖析PCA人脸识别技术(1)，2024网络安全最新大厂面试真题

最新推荐文章于 2024-10-17 15:56:45 发布

2401_84281748

最新推荐文章于 2024-10-17 15:56:45 发布

阅读量806

点赞数 8

分类专栏：程序员文章标签： web安全面试安全

本文链接：https://blog.csdn.net/2401_84281748/article/details/138473532

版权

程序员专栏收录该内容

159 篇文章 2 订阅

订阅专栏

学习路线：

这个方向初期比较容易入门一些，掌握一些基本技术，拿起各种现成的工具就可以开黑了。不过，要想从脚本小子变成黑客大神，这个方向越往后，需要学习和掌握的东西就会越来越多以下是网络渗透需要学习的内容：
在这里插入图片描述

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以点击这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

🌌1 初识模式识别

模式识别是一种通过对数据进行分析和学习，从中提取模式并做出决策的技术。这一领域涵盖了多种技术和方法，可用于处理各种类型的数据，包括图像、语音、文本等。以下是一些常见的模式识别技术：

图像识别：

计算机视觉：使用计算机和算法模拟人类视觉，使机器能够理解和解释图像内容。常见的应用包括人脸识别、物体检测、图像分类等。
卷积神经网络（CNN）：一种专门用于图像识别的深度学习模型，通过卷积层、池化层等结构提取图像中的特征。

语音识别：

自然语言处理（NLP）：涉及对人类语言进行处理和理解的技术。包括文本分析、情感分析、命名实体识别等。
语音识别：将语音信号转换为文本，使机器能够理解和处理语音命令。常见应用包括语音助手和语音搜索。

模式识别在生物医学领域的应用：

生物特征识别：包括指纹识别、虹膜识别、基因序列分析等，用于生物医学研究和安全身份验证。
医学图像分析：利用模式识别技术分析医学影像，如MRI、CT扫描等，以辅助医生进行诊断。

时间序列分析：

时间序列模式识别：对时间序列数据进行建模和分析，用于预测趋势、检测异常等。在金融、气象、股票市场等领域有广泛应用。

数据挖掘和机器学习：

聚类算法：将数据集中的相似对象分组，常用于无监督学习，如K均值聚类。
分类算法：建立模型来对数据进行分类，如决策树、支持向量机等。
回归分析：用于建立输入和输出之间的关系，用于预测数值型结果。
深度学习：通过多层神经网络学习数据的表示，适用于处理大规模和复杂的数据。

模式识别在安全领域的应用：

行为分析：监测和识别异常行为，如入侵检测系统。
生物特征识别：用于身份验证和访问控制，如指纹、面部识别。

这些技术通常不是孤立存在的，而是相互交叉和融合的，以解决更复杂的问题。在实际应用中，根据具体的问题和数据特点选择合适的模式识别技术是至关重要的。

资源获取：关注公众号【科创视野】回复模式识别实验

🌌2 PCA人脸识别

🌍2.1 研究目的

掌握**主成分分析（PCA）**在人脸识别领域的基本原理和应用。
理解PCA如何对高维度数据进行降维，并探究其在人脸图像处理中的效果。
评估PCA在人脸识别中的性能表现，包括识别准确度、模型泛化能力和计算效率。
探讨PCA对人脸数据集的特征提取能力，以及选择合适主成分数量对模型性能的影响。

🌍2.2 研究环境

C++编程语言及其相关库：
- 语言支持： VSCode具备强大的C++语言支持，提供代码高亮、自动完成等功能，使得编码更加高效。
- Eigen库： 作为线性代数的重要工具，Eigen库被集成用于进行高效的线性代数运算，为数学计算提供了强大的支持。
OpenCV库：
- 图像处理： OpenCV库作为计算机视觉领域的重要工具，为图像处理和可视化提供了广泛的功能。包括图像读取、处理、特征提取等一系列操作，为图像相关的应用提供了基础支持。
- 可视化： OpenCV还支持直观的图像可视化，使开发者能够直观地观察图像处理的效果，有助于调试和优化。
C++编译器配置：
- GCC配置： 在使用VSCode进行C++开发时，确保已配置好C++编译器，常用的是GNU Compiler Collection（GCC）。正确的配置保证了代码的正确编译和执行。
硬件环境：
- 计算资源： 为了处理图像数据，需要充足的计算资源，包括足够的内存和强大的CPU/GPU。这保障了对大规模图像数据进行高效处理和运算。
- 内存管理： 在处理大规模图像数据时，合理的内存管理变得至关重要，以防止内存溢出和提高程序运行效率。

🌍2.3 研究内容

🌕2.3.1 PCA人脸识别方法

将PCA方法用于人脸识别，其实是假设所有的人脸都处于一个低维线性空间，而且不同的人脸在这个空间中具有可分性。其具体做法是由高维图像空间经PCA变换后得到一组新的正交基，对这些正交基做一定的取舍，保留其中的一部分生成低维的人脸空间，也即是人脸的特征子空间。PCA人脸识别算法步骤包括：

a.人脸图像预处理【人脸大小都是高200，宽180】

b.读入人脸库，训练形成特征子空间【特征值、特征向量的求法，采用我上一篇文章的QR算法】

c.把训练图像和测试图像投影到上一步骤中的特征子空间上【矩阵相乘】

d.选择一定的距离函数进行判别【欧氏距离，挑最小的匹配】

🌕2.3.2 PCA人脸识别流程

a.读入人脸库，读入每一个二维的人脸图像并转化为一维的向量，每个人选定一定数量的人脸照片构成训练集【共20张】，则训练集是一个36000*20的矩阵。测试集共10张图像，每次选一张，则测试集是一个36000*1的矩阵。

样本集：

测试集：

代码：

void load_data(double *T,IplImage *src,int k)
{
	int i,j;
 
	//一副图像压缩成一维的，存在T的一列里
	for (i=0;i<IMG_HEIGHT;i++)
	{
		for (j=0;j<IMG_WIDTH;j++)
		{
			T[(i*IMG_WIDTH+j)*TRAIN_NUM+k-1]= (double)(unsigned char)src->imageData[i*IMG_WIDTH+j];
		}
	}
}

b.计算 PCA变换的生成矩阵Q。首先计算训练集的协方差矩阵X，其中x1,x2,…,xn为第i副图像的描述，即xi为一个36000*1的列向量。

$X = \left[ x _ { 1 } - \overline { x } \ \ x _ { 2 } - \overline { x } \cdots x _ { n } - \overline { x } \right] \overline { x } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } \begin{bmatrix} x _ { 1 } \ x _ { 2 } \\cdots\ x _ { n } \end{bmatrix} \ Q = X X ^ { T } = \begin{matrix} [ x _ { 1 } - \overline { x }\ \ x _ { 2 } - \overline { x } \ \ \dots \ \ x _ { n } - \overline { x } ] \begin{bmatrix} ( x _ { 1 } - \overline { x } ) ^ { T } \ ( x _ { 2 } - \overline { x } ) ^ { T } \\dots\ ( x _ { n } - \overline { x } ) ^ { T } \end{bmatrix} \ \end{matrix}$

由于这个矩阵太大36000*36000，求特征值和特征向量比较坑，所以改为求 P=XTX 的特征向量和特征值，且有如下性质：

设e是矩阵P的特征值λ对应的特征向量，则有：

$\begin{matrix} P e = \lambda e \ X ^ { T } X e = \lambda e \ X X ^ { T } X e = \lambda X e \ Q ( X e ) = \lambda X e \end{matrix}$

这里，X*e也是矩阵Q的特征值λ对应的特征向量，可以如此变换。

代码：

void calc_mean(double *T,double *m)
{
	int i,j;
	double temp;
 
	for (i=0;i<IMG_WIDTH*IMG_HEIGHT;i++)
	{
		temp=0;
		for (j=0;j<TRAIN_NUM;j++)
		{
			temp = temp + T[i*TRAIN_NUM+j];
		}
		m[i] = temp/TRAIN_NUM;
	}
}
 
void calc_covariance_matrix(double *T,double *L,double *m)
{
	int i,j,k;
	double *T1;
 
	//T = T -m
	for (i=0;i<IMG_WIDTH*IMG_HEIGHT;i++)
	{
		for (j=0;j<TRAIN_NUM;j++)
		{
			T[i*TRAIN_NUM+j] = T[i*TRAIN_NUM+j] - m[i];
		}
	}
 
	T1 = (double *)malloc(sizeof(double)*IMG_HEIGHT*IMG_WIDTH*TRAIN_NUM);
 
	//L = T' * T
	matrix_reverse(T,T1,IMG_WIDTH*IMG_HEIGHT,TRAIN_NUM);
	matrix_mutil(L,T1,T,TRAIN_NUM,IMG_HEIGHT*IMG_WIDTH,TRAIN_NUM);
 
	free(T1);
}

c.计算生成矩阵P的特征值和特征向量，并挑选合适的特征值和特征向量，构造特征子空间变化矩阵。这里P是实对称矩阵，可以采用上一篇的方法，先进行Household变换将P变成三对角矩阵，然后使用QR迭代算法求解特征值和特征向量，迭代次数60，误差eps=0.000001，代码：

void cstrq(double a[],int n,double q[],double b[],double c[])
{
	int i,j,k,u,v;
	double h,f,g,h2;
	for (i=0; i<=n-1; i++)
		for (j=0; j<=n-1; j++)
		{ u=i*n+j; q[u]=a[u];}
		for (i=n-1; i>=1; i--)
		{ h=0.0;
		if (i>1)
			for (k=0; k<=i-1; k++)
			{ u=i*n+k; h=h+q[u]*q[u];}
			if (h+1.0==1.0)
			{ c[i]=0.0;
			if (i==1) c[i]=q[i*n+i-1];
			b[i]=0.0;
			}
			else
			{ c[i]=sqrt(h);
			u=i*n+i-1;
			if (q[u]>0.0) c[i]=-c[i];
			h=h-q[u]*c[i];
			q[u]=q[u]-c[i];
			f=0.0;
			for (j=0; j<=i-1; j++)
			{ q[j*n+i]=q[i*n+j]/h;
			g=0.0;
			for (k=0; k<=j; k++)
				g=g+q[j*n+k]*q[i*n+k];
			if (j+1<=i-1)
				for (k=j+1; k<=i-1; k++)
					g=g+q[k*n+j]*q[i*n+k];
			c[j]=g/h;
			f=f+g*q[j*n+i];
			}
			h2=f/(h+h);
			for (j=0; j<=i-1; j++)
			{ f=q[i*n+j];
			g=c[j]-h2*f;
			c[j]=g;
			for (k=0; k<=j; k++)
			{ u=j*n+k;
			q[u]=q[u]-f*c[k]-g*q[i*n+k];
			}
			}
			b[i]=h;
			}
		}
		for (i=0; i<=n-2; i++) c[i]=c[i+1];
		c[n-1]=0.0;
		b[0]=0.0;
		for (i=0; i<=n-1; i++)
		{ if ((b[i]!=0.0)&&(i-1>=0))
		for (j=0; j<=i-1; j++)
		{ g=0.0;
		for (k=0; k<=i-1; k++)
			g=g+q[i*n+k]*q[k*n+j];
		for (k=0; k<=i-1; k++)
		{ u=k*n+j;
		q[u]=q[u]-g*q[k*n+i];
		}
		}
		u=i*n+i;
		b[i]=q[u]; q[u]=1.0;
		if (i-1>=0)
			for (j=0; j<=i-1; j++)
			{ q[i*n+j]=0.0; q[j*n+i]=0.0;}
		}
		return;
}
 
//q:特征向量，b：特征值
int csstq(int n,double b[],double c[],double q[],double eps,int l)
{
	int i,j,k,m,it,u,v;
	double d,f,h,g,p,r,e,s;
	c[n-1]=0.0; d=0.0; f=0.0;
	for (j=0; j<=n-1; j++)
	{ it=0;
	h=eps*(fabs(b[j])+fabs(c[j]));
	if (h>d) d=h;
	m=j;
	while ((m<=n-1)&&(fabs(c[m])>d)) m=m+1;
	if (m!=j)
	{ do
	{ if (it==l)
	{ printf("fail\n");
	return(-1);
	}
	it=it+1;
	g=b[j];
	p=(b[j+1]-g)/(2.0*c[j]);
	r=sqrt(p*p+1.0);
	if (p>=0.0) b[j]=c[j]/(p+r);
	else b[j]=c[j]/(p-r);
	h=g-b[j];
	for (i=j+1; i<=n-1; i++)
		b[i]=b[i]-h;
	f=f+h; p=b[m]; e=1.0; s=0.0;
	for (i=m-1; i>=j; i--)
	{ g=e*c[i]; h=e*p;
	if (fabs(p)>=fabs(c[i]))
	{ e=c[i]/p; r=sqrt(e*e+1.0);
	c[i+1]=s*p*r; s=e/r; e=1.0/r;
	}
	else
	{ e=p/c[i]; r=sqrt(e*e+1.0);
	c[i+1]=s*c[i]*r;
	s=1.0/r; e=e/r;
	}
	p=e*b[i]-s*g;
	b[i+1]=h+s*(e*g+s*b[i]);
	for (k=0; k<=n-1; k++)
	{ u=k*n+i+1; v=u-1;
	h=q[u]; q[u]=s*q[v]+e*h;
	q[v]=e*q[v]-s*h;
	}
	}
	c[j]=s*p; b[j]=e*p;
	}
	while (fabs(c[j])>d);
	}
	b[j]=b[j]+f;
	}
	for (i=0; i<=n-1; i++)
	{ k=i; p=b[i];
	if (i+1<=n-1)
	{ j=i+1;
	while ((j<=n-1)&&(b[j]<=p))
	{ k=j; p=b[j]; j=j+1;}
	}
	if (k!=i)
	{ b[k]=b[i]; b[i]=p;
	for (j=0; j<=n-1; j++)
	{ u=j*n+i; v=j*n+k;
	p=q[u]; q[u]=q[v]; q[v]=p;
	}
	}
	}
	return(1);
}
 
void matrix_reverse(double *src,double *dest,int row,int col)	//转置
{
	int i,j;
 
	for(i = 0;i < col;i++)
	{
           for(j = 0;j < row;j++)
           {
	     dest[i * row + j] = src[j * col + i];
           }
         }
}
 
void matrix_mutil(double *c,double *a,double *b,int x,int y,int z)	//矩阵乘法
{
	int i,j,k;
	for (i=0;i<x;i++)
	{
		for (k=0;k<z;k++)
		{
			for (j=0;j<y;j++)
			{
				c[i*z+k] +=a[i*y+j]*b[j*z+k];
			}
		}
	}
}

挑选合适的特征值和特征向量，其实就是挑特征值大于1的【关于挑选，可以排序选前k个，也可以设阈值】：

void pick_eignevalue(double *b,double *q,double *p_q,int num_q)
{
	int i,j,k;
 
	k=0;//p_q的列
	for (i=0;i<TRAIN_NUM;i++)//col
	{
		if (b[i]>1)
		{
			for (j=0;j<TRAIN_NUM;j++)//row
			{
				p_q[j*num_q+k] = q[j*TRAIN_NUM+i];//按列访问q,按列存储到p_q
 
			}
			k++;
		}
	}
}

d.把训练图像和测试图像投影到特征空间中。每一幅人脸图像投影到子空间以后，就对应与子空间的一个点。同样，子空间中的任一点也对应于一副图像。这些子空间的点在重构以后的图像很像人脸，所以他们被成为特征脸Eigenface。有了这样一个由特征脸组成的降维子空间，任何一副人脸图像都可以向其做投影并获得一组坐标系数，这组系数表明了该图像在子空间中的位置，这样原来的人脸图像识别问题就转化为依据子空间的训练样本点进行分类的问题。

【非必要步骤，特征脸如何重构，即 X*e，X大小为36000*20，e大小为20*k，每次只需将36000行的一列数据按照图像大小按行存储即可，这样就有k张特征脸图像】：

double	*temp;
	IplImage *projected;
	char res[20]={0};	//file name
	temp = (double *)malloc(sizeof(double)*IMG_HEIGHT*IMG_WIDTH*num_q);//按列存取
	projected = cvCreateImage(cvSize(IMG_WIDTH,IMG_HEIGHT),IPL_DEPTH_8U,1);
	//求特征脸
	matrix_mutil(temp,T,p_q,IMG_WIDTH*IMG_HEIGHT,TRAIN_NUM,num_q);
	
	for (i=0;i<num_q;i++)
	{
		sprintf(res,"%d.jpg",i);
		for (j=0;j<IMG_HEIGHT;j++)
		{
			for (k=0;k<IMG_WIDTH;k++)
			{
				projected->imageData[j*IMG_WIDTH+k] = (unsigned char)abs(temp[(j*IMG_WIDTH+k)*num_q+i]);
			}
		}
		cvSaveImage(res,projected);
	}

结果：

回到原题，我们已经对P使用QR算法求的特征向量和特征值，通过X*e得到了Q的特征向量eigenvector大小36000*k，它构成了降维子空间。接下来，分别让样本集和测试集的图像投影到该子空间中，即：eigenvector ’ * X 等等，然后得到一组坐标系数。

计算Q的特征向量和样本集像子空间投影的代码：

void get_eigenface(double *p_q,double *T,int num_q,double *projected_train,double *eigenvector)
{
	double *temp;
	double tmp;
	int i,j,k;
	//IplImage *projected;
	//char res[20]={0};	//file name
 
	projected = cvCreateImage(cvSize(IMG_WIDTH,IMG_HEIGHT),IPL_DEPTH_8U,1);
	//temp = (double *)malloc(sizeof(double)*IMG_HEIGHT*IMG_WIDTH*num_q);//按列存取
 
	memset(eigenvector,0,sizeof(double)*IMG_HEIGHT*IMG_WIDTH*num_q);
	memset(projected_train,0,sizeof(double)*TRAIN_NUM*num_q);
	
	//求特征脸
	//matrix_mutil(temp,T,p_q,IMG_WIDTH*IMG_HEIGHT,TRAIN_NUM,num_q);
	
	/*for (i=0;i<num_q;i++)
	{
		sprintf(res,"%d.jpg",i);
		for (j=0;j<IMG_HEIGHT;j++)
		{
			for (k=0;k<IMG_WIDTH;k++)
			{
				projected->imageData[j*IMG_WIDTH+k] = (unsigned char)abs(temp[(j*IMG_WIDTH+k)*num_q+i]);
			}
		}
		cvSaveImage(res,projected);
	}*/
 
	
 
	//求Q的特征向量X*e，矩阵相乘
	temp = (double *)malloc(sizeof(double)*IMG_HEIGHT*IMG_WIDTH*num_q);
         matrix_mutil(temp,T,p_q,IMG_HEIGHT*IMG_WIDTH,TRAIN_NUM,num_q);
 
	//投影到子空间
	matrix_reverse(temp,eigenvector,IMG_WIDTH*IMG_HEIGHT,num_q);
         matrix_mutil(projected_train,eigenvector,T,num_q,IMG_WIDTH*IMG_HEIGHT,TRAIN_NUM);
         free(temp);
}

读取测试图像，并投影到子空间的代码：

还有兄弟不知道网络安全面试可以提前刷题吗？费时一周整理的160+网络安全面试题，金九银十，做网络安全面试里的显眼包！

王岚嵚工程师面试题（附答案），只能帮兄弟们到这儿了！如果你能答对70%，找一个安全工作，问题不大。

对于有1-3年工作经验，想要跳槽的朋友来说，也是很好的温习资料！

【完整版领取方式在文末！！】

93道网络安全面试题