PAC

最新推荐文章于 2022-11-22 15:53:12 发布

土豆娃potato

最新推荐文章于 2022-11-22 15:53:12 发布

阅读量144

点赞数

分类专栏：日常之机器学习

本文链接：https://blog.csdn.net/m0_49234921/article/details/116835444

版权

日常之机器学习专栏收录该内容

17 篇文章 1 订阅

订阅专栏

博客探讨了如何通过主成分分析（PCA）将二维数据降维至一维，以最大化样本间的方差。PCA首先通过将数据归零来消除均值影响，然后利用梯度上升法寻找使样本方差最大的轴。文章提供了实现PCA的代码示例，展示了数据归零化的过程，并对比了PCA与线性回归的区别。

摘要由CSDN通过智能技术生成

在这里插入图片描述

将所有得点从二维降到一维数据：

在这里插入图片描述

将

所有的点更加趋近原来点间的分布情况，这些样本点映射到X轴和Y轴的距离多非常的大，这样他们的区分度会更加的明显。如何找到样本间间距最大的轴呢？

使用一个什么样的指标来定义样本间的间距呢？-----答：方差。
方差：描述样本分布疏密的一个指标。方差越大代表样本间越稀疏，方差越小，代表样本间越紧密。
在这里插入图片描述

在这里插入图片描述
问题：找到一个轴，使得样本空间的所有点映射到这个轴后，方差最大？
答：第一步：将样例的均值归零。
即将所有的样本多减去这批样本整体的均值。
原图：

样本归0后：即移动坐标轴。使得每一个样本在每一个维度均值为0.

在这里插入图片描述

主成分分析法即变成求目标函数最大值的问题了：这里采用梯度上升法求解（搜索的方法）。

主成分分析法和线性回归的区别：

求数据的主成分

代码部分

import numpy as np
import matplotlib.pyplot as plt

X = np.empty((100, 2))
X[:,0] = np.random.uniform(0., 100., size=100)
X[:,1] = 0.75 * X[:,0] + 3. +np.random.normal(0, 10., size=100)
plt.scatter(X[:,0],X[:,1])
plt.show()

# 对数据进行demean(归一化)
def demean(X):
    # 相当于对X这个矩阵在行（axis=0)这个方向上求一个均值，最终求得的结果是每一列的均值。
    return X - np.mean(X, axis=0)

在这里插入图片描述

使用数据归零化

在这里插入图片描述

import numpy as np
import matplotlib.pyplot as plt

X = np.empty((100, 2))
X[:,0] = np.random.uniform(0., 100., size=100)
X[:,1] = 0.75 * X[:,0] + 3. +np.random.normal(0, 10., size=100)
plt.scatter(X[:,0],X[:,1])

plt.show()

# 对数据进行demean(归一化)
def demean(X):
    # 相当于对X这个矩阵在行（axis=0)这个方向上求一个均值，最终求得的结果是每一列的均值。
    return X - np.mean(X, axis=0)
def demean(X):
    return X - np.mean(X,axis=0)
X_demean = demean(X)
plt.scatter(X_demean[:,0],X_demean[:,1])
plt.show()

def f(w,x):
    return np.sum((x.dot(w)**2))/len(x)
def df_math(w,x):
    return x.T.dot(X.dot(w))*2./len(x)
def df_debug(w, X,epsilon=0.0001):
    res = np.empty(len(w))
    for i in range(len(w)):
        w_1 = w.copy()
        w_1[i] += epsilon
        w_2 =c.copy()
        w_2[i] -=epsilon
        res[i] = (f(w_1,X) - f(w_2,X))/(2 * epsilon)
        return res