PCA 主成分分析法下

上一篇详细的讨论了如何求样本数据的第一主成分,本文主要来看一下如何求第二,第三…主成分以及如何利用这些主成分进行数据的降维。

回顾

PCA 最重要的是求解一个新的空间(的基),然后利用这个新的空间坐标系进行降维。我们已经知道了第一主成分是原始数据信息量保留最大(利用方差最大来描述的)的那个轴的求法。

前n个主成分的求法

第二主成分代表的是原数据映射到第二个轴的方差次之,如何求第二主成分呢?

实际上我们求出的是第一个轴的方向向量 w w w,我们将这个向量乘上原数据在这个方向向量的投影(投影是标量),原数据在第一主成分的分量就求出来了,用原数据减去这个分量,形成一个新的数据,再对这个新的数据进行第一主成分分析,得到的第一主成分就相当于原数据的第二主成分,依次类推可以求出高维空间的前 n n n个主成分。我们利用着前 n n n个主成分就可以完成数据的降维了。

来看一下,原数据减去第一主成分的分量是什么样的。

原始数据映射到第一个轴之后的分量计算公式:
X p r o j e c t ( i ) = ∣ ∣ X p r o j e c t ( i ) ∣ ∣ ⋅ w 1 = ∣ ∣ X ( i ) ⋅ w 1 ∣ ∣ ⋅ w 1 \begin{align} X^{(i)}_{project} & = ||X^{(i)}_{project}||\cdot w_1 \\ & =||X^{(i)}\cdot w_{1}||\cdot w_1 \end{align} Xproject(i)=∣∣Xproject(i)∣∣w1=∣∣X(i)w1∣∣w1

原数据减去第一主成分的分量计算公式:
X n e w ( i ) = X ( i ) − X p r o j e c t ( i ) \begin{align} X^{(i)}_{new} = X^{(i)} - X^{(i)}_{project} \end{align} Xnew(i)=X(i)Xproject(i)
上式中两向量相减形成的新向量是蓝色部分,也是去除第一主成分分量后的新数据,由于在二维空间中,第一主成分的轴确定后,第二主成分的轴肯定是和第一个轴是垂直的。
在这里插入图片描述

代码实现

first_component函数是上一篇的gradient_ascent函数签名 ,用于求解数据的第一主成分。first_n_components函数是新增函数,用于求解前 n n n个组成分。注意循环里的这行代码X_pca = X_pca - X_pca.dot(w).reshape(-1, 1) * w这原始数据减去每一组成分分量的逻辑。这使用了向量化的手段对代码做了简化,也可以使用循环实现(代码注释部分根据公式(2)实现)。

import numpy as np
from sklearn.decomposition import PCA

X = np.empty((100, 2))
# 第一个特征值
X[:, 0] = np.random.uniform(0., 100., size=100)
# 第二个特征值和第一个特征值有线性关系加一定噪音
X[:, 1] = 0.75 * X[:, 0] + 3. + np.random.normal(0, 10., size=100)


def demean(X):
    return X - np.mean(X, axis=0)


def f(w, X):
    return np.sum((X.dot(w) ** 2)) / len(X)


def df(w, X):
    return X.T.dot(X.dot(w)) * 2. / len(X)


def direction(w):
    return w / np.linalg.norm(w)


def first_component(X, initial_w, eta, n_iters=1e4, epsilon=1e-8):
    w = direction(initial_w)
    cur_iter = 0

    while cur_iter < n_iters:
        gradient = df(w, X)
        last_w = w
        w = w + eta * gradient
        w = direction(w)
        if (abs(f(w, X) - f(last_w, X)) < epsilon):
            break

        cur_iter += 1

    return w


def first_n_components(n, X, eta=0.01, n_iters=1e4, epsilon=1e-8):
    X_pca = X.copy()
    X_pca = demean(X_pca)
    res = []
    for i in range(n):
        initial_w = np.random.random(X_pca.shape[1])
        w = first_component(X_pca, initial_w, eta)
        res.append(w)

        # 根据公式实现
        # for i in range(len(X)):
        #     X_pca[i] = X_pca[i] - X_pca[i].dot(w) * w
        # 向量化形式
        X_pca = X_pca - X_pca.dot(w).reshape(-1, 1) * w

    return np.array(res)


w = first_n_components(2, X)
print("梯度上升法求解前n个组成结果:")
print(w)

# 调用sklearn中PCA包用于验证
pca = PCA(n_components=2)
pca.fit(X)
print(f"sklearn求解前n个组成结果:")
print(pca.components_)

# 梯度上升法求解前n个组成结果:
# [[ 0.75992202  0.65001425]
#  [-0.65001156  0.75992432]]
# sklearn求解前n个组成结果:
# [[ 0.75992209  0.65001417]
#  [-0.65001417  0.75992209]]

结果如下,输出主成分向量的方向可能不一致。

梯度上升法求解前n个组成结果:
[[ 0.75992202  0.65001425]
 [-0.65001156  0.75992432]]
sklearn求解前n个组成结果:
[[ 0.75992209  0.65001417]
 [-0.65001417  0.75992209]]

在二维空间这两个向量也是垂直的。

w = np.array([[0.75992202, 0.65001425], [-0.65001156, 0.75992432]])
print(w[0].dot(w[1]))
# 3.5392230088013516e-06

PCA降维计算

假设我们的样本是 X m × n X_{m \times n} Xm×n我们求出前 k k k个主成分并组成 W k × n W_{k \times n} Wk×n维的矩阵。矩阵行表示原 n n n维空间中新坐标轴的前 k k k

X = ( X 1 ( 1 ) X 2 ( 1 ) … X n ( 1 ) X 1 ( 2 ) X 2 ( 2 ) … X n ( 2 ) … … … … X 1 ( m ) X 2 ( m ) … X n ( m ) ) W = ( W 1 ( 1 ) W 2 ( 1 ) … W n ( 1 ) W 1 ( 2 ) W 2 ( 2 ) … W n ( 2 ) … … … … W 1 ( k ) X 2 ( k ) … X n ( k ) ) \begin{array}{cc} X=\left(\begin{array}{cccc} X_1^{(1)} & X_2^{(1)} & \ldots & X_n^{(1)} \\ X_1^{(2)} & X_2^{(2)} & \ldots & X_n^{(2)} \\ \ldots & \ldots & \ldots & \ldots \\ X_1^{(m)} & X_2^{(m)} & \ldots & X_n^{(m)} \end{array}\right) & W=\left(\begin{array}{cccc} W_1^{(1)} & W_2^{(1)} & \ldots & W_n^{(1)} \\ W_1^{(2)} & W_2^{(2)} & \ldots & W_n^{(2)} \\ \ldots & \ldots & \ldots & \ldots \\ W_1^{(k)} & X_2^{(k)} & \ldots & X_n^{(k)} \end{array}\right) \\ \end{array} X= X1(1)X1(2)X1(m)X2(1)X2(2)X2(m)Xn(1)Xn(2)Xn(m) W= W1(1)W1(2)W1(k)W2(1)W2(2)X2(k)Wn(1)Wn(2)Xn(k)

PCA降维公式如下,我们用空间中前 k k k个信息量最大的坐标轴表示了原 n n n维空间的数据样本。至此而PCA降维已经完成。

X ⋅ W T = X k X : m × n ,示 m 个样本 n 个特征 W : k × n ,表示前个主成分,每个主成分有 n 个维度 W T : n × k ,列表示第一主成分轴的方向向量 \begin{aligned} & X \cdot W^T=X_k\\ & \\ & X: m \times n ,示m 个样本n个特征\\ & W: k \times n ,表示前个主成分,每个主成分有n个维度 \\ & W^{T}: n \times k ,列表示第一主成分轴的方向向量 \end{aligned} XWT=XkX:m×n,示m个样本n个特征W:k×n,表示前个主成分,每个主成分有n个维度WT:n×k,列表示第一主成分轴的方向向量

PCA降维后是可以恢复到原数据的维度,但是已经不是原来的那个数据了,这其中损失的信息是恢复不 了的,一般不常用。

PCA代码实现

import numpy as np
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt


class Pca:

    def __init__(self, n_components):
        """初始化PCA"""
        assert n_components >= 1
        self.n_components = n_components
        self.components_ = None

    def fit(self, X, eta=0.01, n_iters=1e4):
        """获得数据集X的前n个主成分"""

        # 去均值
        def demean(X):
            return X - np.mean(X, axis=0)

        # 计算目标函数
        def f(w, X):
            return np.sum((X.dot(w) ** 2)) / len(X)

        # 梯度计算
        def df(w, X):
            return X.T.dot(X.dot(w)) * 2. / len(X)

        # 向量单位化
        def direction(w):
            return w / np.linalg.norm(w)

        # 求数据的第一主成分
        def first_component(X, initial_w, eta=0.01, n_iters=1e4, epsilon=1e-8):

            w = direction(initial_w)
            cur_iter = 0

            while cur_iter < n_iters:
                gradient = df(w, X)
                last_w = w
                w = w + eta * gradient
                w = direction(w)
                if (abs(f(w, X) - f(last_w, X)) < epsilon):
                    break

                cur_iter += 1

            return w

        X_pca = demean(X)
        self.components_ = np.empty(shape=(self.n_components, X.shape[1]))
        for i in range(self.n_components):
            initial_w = np.random.random(X_pca.shape[1])
            w = first_component(X_pca, initial_w, eta, n_iters)
            self.components_[i, :] = w

            X_pca = X_pca - X_pca.dot(w).reshape(-1, 1) * w

        return self

    def transform(self, X):
        """将给定的X, 返回降维后的数据"""
        assert X.shape[1] == self.components_.shape[1]

        return X.dot(self.components_.T)


X = np.empty((100, 2))
# 第一个特征值
X[:, 0] = np.random.uniform(0., 100., size=100)
# 第二个特征值和第一个特征值有线性关系加一定噪音
X[:, 1] = 0.75 * X[:, 0] + 3. + np.random.normal(0, 10., size=100)

pca = Pca(1)
# 求解前k个主成分
pca.fit(X)
# 调用公式直接求降维后的数据
pca_X = pca.transform(X)
print(f"降维后的数据维度:{pca_X.shape}")
print(pca.components_)

结果如下, 我们实现了二维降一维的过程

降维后的数据维度:(100, 1)
[[0.78108214 0.62442829]]

注意sklearn 1.2.2 版降维结果和我们自己实现的不太一致,具体见参考。

总结

降维:PCA 算法通过选取较多信息量的前 k k k个主成分来进行降维操作,这样原数据保留的信息最多。

降噪:PCA降维后将数据返回到原本的高维空间过程中,可以实现”保证维度,但去掉方差很小的特征所带的信息

过拟合:PCA 保留了主要信息,但这个主要信息只是针对训练集的,而且这个主要信息未必是重要信息。有可能舍弃了一些看似无用的信息,但是这些看似无用的信息恰好是重要信息,只是在训练集上没有很大的表现,所以 PCA 也可能加剧了过拟合。

特征独立:PCA 不仅将数据压缩到低维,它也使得降维之后的数据各特征相互独立。

参考:
sklearn降维算法PCA https://blog.csdn.net/m0_46177963/article/details/110562802

  • 17
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值