机器学习之主成分分析（PCA）

饺子馅儿～

已于 2024-06-19 16:50:04 修改

阅读量811

点赞数 13

文章标签：机器学习人工智能

于 2024-06-17 11:33:40 首次发布

本文链接：https://blog.csdn.net/m0_73231314/article/details/139606969

版权

一、前言

1.1维度约减

有监督学习（Supervised Learning）
- 定义：从标记的训练数据来推断一个功能的机器学习任务。利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程。
- 特点：
  - 训练数据既有特征（feature）又有标签（label）。
  - 通过训练，让机器可以自己找到特征和标签之间的联系。
  - 常见的算法包括朴素贝叶斯、KNN（K-最近邻）、SVM（支持向量机）等。
- 应用场景：当数据集中每个样本都有明确的标签时，适合使用有监督学习。例如，图像分类、垃圾邮件识别等。
无监督学习（Unsupervised Learning）
- 定义：根据类别未知（没有被标记）的训练样本解决模式识别中的各种问题。
- 特点：
  - 输入数据没有被标记，也没有确定的结果。
  - 样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类）。
  - 常见的算法包括K-means（K均值聚类）、层次聚类等。
- 应用场景：当数据集没有明确的标签，但需要发现数据中的内在结构或模式时，适合使用无监督学习。例如，用户行为分析、市场细分等。
半监督学习（Semi-Supervised Learning）
- 定义：介于监督学习和无监督学习之间，利用少量的标注数据和大量的未标注数据共同训练模型。
- 特点：
  - 同时使用标注数据（已知标签）和未标注数据（未知标签）。
  - 旨在充分挖掘未标注数据中潜在的信息和模式，提高学习的效率和准确性。
  - 常见的假设包括连续性假设和流形假设。
- 应用场景：当标注数据有限或获取标注数据成本较高时，适合使用半监督学习。例如，自然语言处理中的文本分类、图像识别等。

二、PCA 算法

2.1PCA算法介绍

PCA算法是一种无监督学习方法，它通过线性变换将原始数据转换为新的坐标系统，使得数据的最大方差投影在新的坐标轴上。这些新的坐标轴被称为“主成分”，它们是原始数据的主要特征方向。通过选择数据的主成分，PCA可以在减少数据维度的同时，保留数据中的主要信息，从而实现数据的降维。

功能如下：

1. 降维
PCA可以将高维数据集降到更低的维度，减少数据存储和处理的开销。

2. 压缩
PCA可以将数据集表示为比原始数据集更紧凑的形式，可以用于数据压缩。

3. 特征提取
PCA可以从原始数据集中提取最重要的特征，这些特征可以用于构建更好的模型。

4. 去噪
PCA可以帮助我们去除噪声，并且使数据集更具可分性。

2.2PCA算法的原理

特征提取：PCA算法从原始数据集中提取出主成分，这些主成分是与原始数据最为相关的特征向量，能够最大程度地解释整个数据集的方差。通常，只需要选择前几个主成分，就能保留大部分数据特征。
降维处理：在得到数据集的主成分之后，PCA使用这些主成分将原始数据投影到一个低维度的空间。在这个低维度空间中，数据点之间的距离和分布与原始数据点之间的距离和分布相似。这样，降维后的数据集可以更容易处理，从而加快了数据分析的速度。
矩阵运算：PCA算法的核心是矩阵运算。它通常通过计算数据集的协方差矩阵，然后对协方差矩阵进行奇异值分解（SVD）或特征值分解，得到主成分和对应的特征向量。这些特征向量决定了数据的最主要的方向，可以用来降低数据的维度。
可视化：通过PCA算法得到的降维数据可以进行可视化，便于数据分析和展示。在可视化过程中，考虑到主成分中的权重差异，需要进行合适的权重调整才能得到更好的可视化效果。

2.3PCA算法流程

1.数据集{Xi}；

2.计算数据集{Xi}的均值；

3.计算协方差矩阵S;

4.计算S的特征向量；

5.根据特定准则选择d个特征向量，并组成变换矩阵。

实际计算中可以先对原始数据减去均值，再求协方差矩阵。

2.4代数定义讲解

给定n个样本，每个样本维度为p维；

定义Z1j为样本Xj在第一主成分/主方向a1上的投影；

目标：找到a1，使得z1的方差最大；

假设X^为0，根据样本组成的矩阵，则有协方差矩阵；

可以证明S半正定

目标：找到主方向a1，使得z1的方差最大化且满足a1t a1等于1，则有：

得出a1是协方差矩阵S的特征向量，可以验证a1对应的特征值是S的最大特征值；

继续计算主成分a2：

实际上可以求证a2也是协方差矩阵S的特征向量，且a2是S 的第二大特征向量；

以此类推，可以验证：

协方差矩阵S 的第k大特征向量对应数据的第k主成分

第k大特征向量对应的特征值，为投影到该主成分的方差

2.5PCA算法的优缺点

优点：
- 无监督学习：PCA不需要标签数据，适用于非监督学习任务。
- 降维：PCA能够有效地降低数据的维度，简化数据的复杂性，同时保留数据的主要特征。
- 特征提取：PCA能够提取出数据中的主要特征，使得数据的可视化更加容易。
- 可解释性强：PCA将数据投影到低维空间后，得到的特征向量通常具有直观的含义。
- 稳健性：PCA对异常值和噪声的鲁棒性较强。
缺点：
- 线性假设：PCA假设数据之间存在线性关系，对于非线性关系的数据可能效果不佳。
- 对初始变量有影响：PCA对初始变量的顺序和标签敏感。
- 对缺失值敏感：PCA对缺失值较为敏感，可能导致结果的不稳定。
- 选择主成分个数：在PCA中需要选择主成分的个数，选择不当可能会导致降维后的数据失去一些重要信息。
- 无法处理多模态数据：PCA主要处理连续型数据，对于离散型或分类数据表现较差。

三、代码案例（PCA实现人脸识别）

1.图像矢量化

def img2vector(image):
    img = cv2.imread(image, 0)  # 读取图片
    rows, cols = img.shape  #获取图片的像素
    imgVector = np.zeros((1, rows * cols))
    imgVector = np.reshape(img, (1, rows * cols))#使用imgVector变量作为一个向量存储图片矢量化信息，初始值均设置为0
    return imgVector

2.训练图片

# 读入人脸库,每个人随机选择k张作为训练集,其余构成测试集
def load_orl(k):#参数K代表选择K张图片作为训练图片使用
    '''
    对训练数据集进行数组初始化，用0填充，每张图片尺寸都定为112*92,
    现在共有40个人，每个人都选择k张，则整个训练集大小为40*k,112*92
    '''
    train_face = np.zeros((40 * k, 112 * 92))
    train_label = np.zeros(40 * k)  # [0,0,.....0](共40*k个0)
    test_face = np.zeros((40 * (10 - k), 112 * 92))
    test_label = np.zeros(40 * (10 - k))
    # sample=random.sample(range(10),k)#每个人都有的10张照片中，随机选取k张作为训练样本(10个里面随机选取K个成为一个列表)
    sample = random.permutation(10) + 1  # 随机排序1-10 (0-9）+1
    for i in range(40):  # 共有40个人
        people_num = i + 1
        for j in range(10):  # 每个人都有10张照片
            image = orlpath + '/s' + str(people_num) + '/' + str(sample[j]) + '.pgm'
            # 读取图片并进行矢量化
            img = img2vector(image)
            if j < k:
                # 构成训练集
                train_face[i * k + j, :] = img
                train_label[i * k + j] = people_num
            else:
                # 构成测试集
                test_face[i * (10 - k) + (j - k), :] = img
                test_label[i * (10 - k) + (j - k)] = people_num
 
    return train_face, train_label, test_face, test_label

测试集和训练集的像素和标签：

3.PCA降维

# 定义PCA算法
def PCA(data, r):#降低到r维
    data = np.float32(np.mat(data))
    rows, cols = np.shape(data)
    # print(rows, cols)
    data_mean = np.mean(data, 0)  # 对列求平均值
    A = data - np.tile(data_mean, (rows, 1))  # 将所有样例减去对应均值得到A
    u, s, VT = np.linalg.svd(A) #利用svd求解右奇异向量即需要将原始数组映射的向量空间矩阵
    V_r = VT[:, 0:r]  # 按列取前r个特征向量
    #将原始数据乘上新的空间向量得到降维后的矩阵
    final_data = A * V_r
    return final_data, data_mean, V_r

4.可视化

#可视化函数
def compare_images(original, reconstructed, index, title1='Original Image', title2='Reconstructed Image'):
    original_image = original[index].reshape(112,92)
    reconstructed_image = reconstructed[index].reshape(112,92)
 
    plt.figure(figsize=(8,4))
    plt.subplot(1,2,1)
    plt.imshow(original_image, cmap='gray')
    plt.title(title1)
 
    plt.subplot(1,2,2)
    plt.imshow(reconstructed_image, cmap='gray')
    plt.title(title2)
 
    plt.show()
#人脸识别函数
def face_recongize():
    #首先获取数据集
    train_face, train_label, test_face, test_label = load_orl(7)
 
    #选择要对比的测试图像的索引（例如，第一张图像）
    compare_indices = range(1)
    for r in range(10, 81, 10):  # 最多降到40维,即选取前40个主成分（因为当k=1时，只有40维)
        print("当降维到%d时" % (r))
 
        # 利用PCA算法进行训练
        data_train_new, data_mean, V_r = PCA(train_face, r)
        # print(data_train_new.shape)
        num_train = data_train_new.shape[0]  # 训练脸总数
        num_test = test_face.shape[0]  # 测试脸总数
        temp_face = test_face - np.tile(data_mean, (num_test, 1))
        data_test_new = temp_face * V_r  # 得到测试脸在特征向量下的数据
        data_test_new = np.array(data_test_new)  # mat change to array
        # print(data_test_new.shape)
        data_train_new = np.array(data_train_new)
 
        #将降维后的测试数据重构回原始图像空间
        reconstructed_test_faces = np.dot(data_test_new, V_r.T) + data_mean
 
        #对选定的测试图像进行降维前后对比
        for i in compare_indices:
            compare_images(test_face,reconstructed_test_faces,i)
 
        # 测试准确度
        true_num = 0
        for i in range(num_test):
            testFace = data_test_new[i, :]
            # print(testFace.shape)
            diffMat = data_train_new - np.tile(testFace, (num_train, 1))  # 训练数据与测试脸之间距离
            print(diffMat.shape)
            sqDiffMat = diffMat ** 2
            sqDistances = sqDiffMat.sum(axis=1)  # 按行求和
            sortedDistIndicies = sqDistances.argsort()  # 对向量从小到大排序，使用的是索引值,得到一个向量
            indexMin = sortedDistIndicies[0]  # 距离最近的索引
            if train_label[indexMin] == test_label[i]:
                true_num += 1
 
        accuracy = float(true_num) / num_test
        print('当每个人选择7张照片进行训练时，The classify accuracy is: %.2f%%' % (accuracy * 100))
        # print(test_face.shape)
        # print(reconstructed_test_faces.shape)
            
face_recongize()

返回降维后前后图像对比及像素：

5.不同维度识别准确度

#人脸识别
def face_rec():
    #k=int(input("每个人选择几张照片进行训练："))
    #x_value=[]
    #y_value=[]
    for r in range(10,41,10):#最多降到40维,即选取前40个主成分（因为当k=1时，只有40维)
        print("当降维到%d时"%(r))
        x_value=[]#绘图x轴 k取值
        y_value=[]#绘图y轴 识别率
        for k in range(1,10):
            train_face,train_label,test_face,test_label=load_orl(k)#得到数据集
        
            #利用PCA算法进行训练
            data_train_new,data_mean,V_r=PCA(train_face,r)
            num_train = data_train_new.shape[0]#训练脸总数
            num_test = test_face.shape[0]#测试脸总数
            temp_face = test_face - np.tile(data_mean,(num_test,1))##去平均后测试行组成的大矩阵(40*(10-k),112*92)
            data_test_new = temp_face*V_r#得到测试脸在特征向量下的数据
            data_test_new = np.array(data_test_new) # mat change to array
            data_train_new = np.array(data_train_new)
    
            #测试准确度
            true_num = 0
            for i in range(num_test):
                testFace = data_test_new[i,:]
                diffMat = data_train_new - np.tile(testFace,(num_train,1))#训练数据与测试脸之间距离
                sqDiffMat = diffMat**2
                sqDistances = sqDiffMat.sum(axis=1)#按行求和
                sortedDistIndicies = sqDistances.argsort()#对向量从小到大排序，使用的是索引值,得到一个向量
                indexMin = sortedDistIndicies[0]#距离最近的索引
                if train_label[indexMin] == test_label[i]:
                    true_num += 1
                else:
                    pass
 
            accuracy = float(true_num)/num_test
            x_value.append(k)
            y_value.append(round(accuracy,2))
            
            print ('当每个人选择%d张照片进行训练时，The classify accuracy is: %.2f%%'%(k,accuracy * 100))
        
        #绘图
        if r==10:
            y1_value=y_value
            plt.plot(x_value,y_value,marker="o",markerfacecolor="red")
            for a, b in zip(x_value, y_value):  
                plt.text(a,b,(a,b),ha='center', va='bottom', fontsize=10)  
 
      
            plt.title("降到10维时识别准确率",fontsize=14)
            plt.xlabel("K值",fontsize=14)
            plt.ylabel("准确率",fontsize=14)
            plt.show()
            #print ('y1_value',y1_value)
        if r==20:
            y2_value=y_value
            plt.plot(x_value,y2_value,marker="o",markerfacecolor="red")
            for a, b in zip(x_value, y_value):  
                plt.text(a,b,(a,b),ha='center', va='bottom', fontsize=10)  
 
      
            plt.title("降到20维时识别准确率",fontsize=14)
            plt.xlabel("K值",fontsize=14)
            plt.ylabel("准确率",fontsize=14)
            plt.show() 
            #print ('y2_value',y2_value)
        if r==30:
            y3_value=y_value
            plt.plot(x_value,y3_value,marker="o",markerfacecolor="red")
            for a, b in zip(x_value, y_value):  
                plt.text(a,b,(a,b),ha='center', va='bottom', fontsize=10)  
 
      
            plt.title("降到30维时识别准确率",fontsize=14)
            plt.xlabel("K值",fontsize=14)
            plt.ylabel("准确率",fontsize=14)
            plt.show()
            #print ('y3_value',y3_value)
        if r==40:
            y4_value=y_value 
            plt.plot(x_value,y4_value,marker="o",markerfacecolor="red")
            for a, b in zip(x_value, y_value):  
                plt.text(a,b,(a,b),ha='center', va='bottom', fontsize=10)  
 
      
            plt.title("降到40维时识别准确率",fontsize=14)
            plt.xlabel("K值",fontsize=14)
            plt.ylabel("准确率",fontsize=14)
            plt.show()
            #print ('y4_value',y4_value) 
        
        
        
    #各维度下准确度比较
    L1,=plt.plot(x_value,y1_value,marker="o",markerfacecolor="red")   
    L2,=plt.plot(x_value,y2_value,marker="o",markerfacecolor="red")
    L3,=plt.plot(x_value,y3_value,marker="o",markerfacecolor="red")
    L4,=plt.plot(x_value,y4_value,marker="o",markerfacecolor="red")
    #for a, b in zip(x_value, y1_value):  
    #    plt.text(a,b,(a,b),ha='center', va='bottom', fontsize=10)  
 
    plt.legend([L1,L2,L3,L4], ["降到10维", "降到20维","降到30维","降到40维"], loc=4)
    plt.title("各维度识别准确率比较",fontsize=14)
    plt.xlabel("K值",fontsize=14)
    plt.ylabel("准确率",fontsize=14)
    plt.show()

四、问题与总结

4.1问题

报错：UserWarning: Glyph 20934 (\N{CJK UNIFIED IDEOGRAPH-51C6}) missing from current font.

原因是未安装对应的字体库，需进行如下处理。

1、下载SimHei字体

https://link.zhihu.com/?target=https%3A//github.com/yuehuhu/some-useful/raw/master/ttf/SimHei.ttf

2、修改matplotlibrc文件

 font.family         : sans-serif   
 # 去掉前面的#     
 font.sans-serif     : SimHei, Bitstream Vera Sans, Lucida Grande, Verdana, Geneva, Lucid, Arial, Helvetica, Avant Garde, sans-serif  
 # 去掉前面的#，并在冒号后面添加SimHei
 axes.unicode_minus  : False
 # 去掉前面的#，并将True改为False

3、删除matplotlib的系统缓存并重启

rm -rf ~/.matplotlib/*

4.2总结

主成分分析（Principal Component Analysis, PCA）是一种常用的数据降维技术，也可以用于数据压缩、特征提取以及数据可视化等领域。以下是PCA算法的简要小结：

数据中心化：
- 对原始数据进行中心化处理，即每个特征减去该特征的均值，使得数据的均值为零，有助于去除数据中的偏移。
计算协方差矩阵：
- 计算中心化后的数据的协方差矩阵。协方差矩阵描述了数据集中不同特征之间的相关性和方差大小。
特征值分解：
- 对协方差矩阵进行特征值分解（或奇异值分解），得到特征值和对应的特征向量。特征值表示了数据中的方差，而特征向量则是与特征值对应的单位向量。
选择主成分：
- 根据特征值的大小选择主成分。特征值越大，说明对应的特征向量所表示的方差越大，因此选择前k个特征值最大的特征向量作为主成分，其中k是降维后的维度。
降维转换：
- 使用选定的主成分构造投影矩阵，并将原始数据投影到这些主成分上，从而实现数据的降维。投影后的数据具有较低的维度，同时保留了尽可能多的原始数据信息。

PCA通过上述步骤将高维数据转换为低维数据，同时尽可能保留原始数据的信息。它在数据预处理、特征提取、噪声过滤等方面有广泛的应用，是理解数据结构和降低计算复杂度的重要工具之一。

饺子馅儿～

关注

13
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
机器学习之主成分分析（PCA）

有监督学习（Supervised Learning）定义：从标记的训练数据来推断一个功能的机器学习任务。利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程。特点：训练数据既有特征（feature）又有标签（label）。通过训练，让机器可以自己找到特征和标签之间的联系。常见的算法包括朴素贝叶斯、KNN（K-最近邻）、SVM（支持向量机）等。应用场景：当数据集中每个样本都有明确的标签时，适合使用有监督学习。例如，图像分类、垃圾邮件识别等。
复制链接

扫一扫