吴恩达Lecture13-2:PCA
PCA算法描述
使用PCA将n维数据减少到k维。实现数据压缩或数据可视化。
PCA过程:
(1)均值归一化。计算所有特征均值,令
X
j
=
X
j
−
u
j
.
X_j = X_j - u_j.
Xj=Xj−uj.
若特征不在同一数量级上,需要除以标准差或者
S
j
S_j
Sj.
(2)计算协方差矩阵sigma Σ.
(3)计算协方差矩阵的特征向量。u,s,v = numpy.linalg.svd(sigma)
Z
i
=
U
r
⋅
X
i
Z^i=U_r·X^i
Zi=Ur⋅Xi
# 均值归一化
def featureNorm(x):
miu = x.mean(axis=0)
sigma = x.std(axis=0,ddof=1)
x_norm = (x-miu)/sigma
return x_norm
# 降维
def projectData(x,u,k):
u_reduce = u[:,0:k]
z = u_reduce.T@x
return z,u_reduce
# 重建原始维度
def reconstructData(x, u, k):
z, u_reduce = projectData(x, u, k)
x_approx = u_reduce@z
return x_approx
# 偏差保留率
def retained_variance(S, K):
rv = np.sum(S[:K])/np.sum(S)
return print('{:.2f}%'.format(rv*100))
PCA应用:人脸降维
人脸图像数据是(5000,1024)维度的,其中一行代表一个人脸图像,每一列表示一个特征值,共有5000人的图像数据。
在吴恩达的课程中,提到计算协方差矩阵Σ时,x是nx1的列向量,这也表明了x的一列表示一个样本,每一行就是一个特征,因此写代码时要注意,要将x表示成一列为一个样本,一行为一个特征的矩阵。吴恩达提供的数据X是正好相反的,要先转置.
查看10 x 10的人脸图像,使用以下函数:
'''
input: x每一行代表一个样本,每一列是一个特征
pca: 输入x是一列代表一个样本,每一行是一个特征
'''
def plotData(x):
plt.figure()
n = np.round(np.sqrt(x.shape[0])).astype(int)
fig, ax = plt.subplots(nrows=n, ncols=n, shareX=True, sharey=True, figsize=(6,6))
for row in range(n):
for col in range(n):
ax[row,col].imshow(x[row*n + col].reshape(32,32),cmp='gray')
基于以上,我们在加载数据之后,进行pca操作时,需要把X进行转置,但在可视化图像数据时,输入未转置之前的X.
# 协方差矩阵的特征向量
'''
输入:x- nx1,一列表示一个样本,每一行表示一个特征。
输出:返回的s是主对角元的值
'''
def pca(x):
m=x.shape[0]
sigma=(x@x.T)/m
u,s,v=np.linalg.svd(sigma)
return u,s
总结
- 注意数据X,每一行每一列表示的内容。
- ax.imshow(x, figsize=( , ))