2.6主成分分析(降维)

Vivian_Congcong

已于 2023-11-28 22:17:59 修改

阅读量832

点赞数 19

分类专栏：数据挖掘笔记文章标签：数据挖掘

于 2023-11-24 12:10:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Vivian_Congcong/article/details/134595793

版权

数据挖掘笔记专栏收录该内容

71 篇文章 0 订阅

订阅专栏

Feature Extraction(属性提炼)
- 进行了边缘检测的图片
  - 一般方法
    - 差分：临近的不同像素点做差值，差值很大就可能在边缘变化的地方
- 主成分分析——PCA（Principal Component Analysis）
  - 特点：是一种无监督学习方法
  - 原因：从不同角度观察问题，信息损失不同
  - 二维例子
    - 特殊情况
      - 解释
        数据呈高斯分布（正态分布）——一个椭圆
        
        椭圆长轴：Major axis；短轴：Minor axis
        
        Variance（变化幅度）：沿着某一属性的variance越大，说明这个属性更重要，更可能将各数据区分开。
        
        根据Variance，应选择区分样本程度更好的X1属性，将数据向X1投影
    - 一般情况
      - 解释
        此时X1，X2有一定的correlation（关联）。即（covariance matrix）协方差矩阵中除了diagal(对角线以外)，其他的地方可能不为0，有covariance（协方差）的存在
      - 方法
        
        平移、旋转坐标轴定义为y1、y2
        
        去中心：把数据的中心点去掉。使得数据中心和坐标原点重合
        
        此时去掉了y1和y2之间的线性correlation
        
        S（X）和S（Y）分别是在坐标变换前后的covariance (matrix) 表达式
    - 通过两种方法找出如何做变换
      - Some Math
        
        目标
        使得在Y坐标轴下面计算出来的covariance，只有对角线上是非0的，其他的都是0，即没有correlation（对角矩阵表示各个变量之间的相关性为0）
        
        解释
        Y就是X矩阵做了一个坐标变换，P是一个n维旋转矩阵
        
        S（Y）：Y坐标轴下的Covariance（协方差矩阵？）。1/（n-1）只是一个大小缩放
        
        Q是一个正交矩阵
        
        X X^T = QDQ^T：矩阵的特征值分解(eigendecomposition特征分解，谱分解)
        
        D是包含特征值的对角阵，如果PQ=I（单位矩阵）就好了。又因为Q是正交矩阵，所以当PQ=I时P即为Q的转置
        
        【补充】
        协方差矩阵
        
        协方差矩阵的简单介绍 - 知乎
        
        协方差矩阵（Covariance Matrix）-CSDN博客
        
        特征分解【矩阵论】特征分解 - 知乎
        
        n阶方阵A可对角化的充分必要条件是A有n个线性无关的特征向量.
        
        正交矩阵的转置矩阵和逆矩阵相等
      - A different view(另一种学术化的角度重新推导一遍)
        
        解释
        想把n维空间中很多的点投影到一根线上（降维思想）
        
        认为原样本点和其投影之间的距离越小，差距越小，原信息保持的越好，即“这条线”找得越好
        
        e^t·xk：表示从xk投影到e，这段距离叫做阿尔法k。
        
        方向用e来表示，因为只关心方向,不关心大小所以令||e||=1
        
        目标
        使得找到一个e，令J（e）函数最小化
        
        化简后需要使S这个散点矩阵最大，限制条件为||e||=1。此时把问题转化为了优化问题
        
        【补充】
        散布矩阵和协方差矩阵：散布矩阵(Scatter Matrix)及其与协方差矩阵(The Covariance Matrix)的关系_the trace of the intraclass scatter matrix-CSDN博客
        
        “向量的内积
        当两个向量都是单位向量时，表示两个向量之间的夹角的余弦
        
        当一个是单位向量时，表示另外一个向量在这个单位向量方向上的投影长度
        
        拉格朗日乘数法（优化方法：带条件的约束问题）
        
        解释
        Se = 岚不打e：是矩阵的特征值、特征向量分解问题
        
        右下角小例子：矩阵x向量 = 向量，说明[1，1]本身是矩阵的一个特征向量，它的特征值是3
        
        最后问题转化为选择最大的岚不打，即最大的特征值，即选择相应的特征向量，而特征向量就是e
        
        补充
        （对称）矩阵求导
- PCA examples（强大的MATLAB）
  - 应用
    - 同一种鱼，correlation好（椭圆细长），信息丢失少
    - 不同种鱼，correlation不好（椭圆高胖），信息丢失多

Vivian_Congcong

关注

19
点赞
踩
21

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Vivian_Congcong CSDN认证博客专家 CSDN认证企业博客

码龄7年

72: 原创

37万+: 周排名

114万+: 总排名

3万+: 访问

: 等级

1356: 积分

485: 粉丝

636: 获赞

11: 评论

645: 收藏

私信

关注

热门文章

分类专栏

数据挖掘笔记 71篇

最新评论

1.1整装待发
CSDN-Ada助手: 恭喜您写下了第一篇博客！标题“1.1整装待发”充满了期待和准备的意味，让人不禁想知道接下来的内容是什么。在您的博客创作道路上迈出了坚实的一步，这是值得庆贺的成就。接下来，我想为您提供一些建议。在创作博客的过程中，可以考虑展开对“整装待发”的含义解读，或者分享您的准备过程和期待。另外，您可以结合个人经历或观点，深入探讨相关话题，并提供一些有价值的见解和观点，这将更加吸引读者的注意力。请记住，博客创作是一个不断学习和成长的过程。保持谦虚的心态，继续探索和尝试新的创作方式，相信您的博客将会越来越受到读者的欢迎和关注。期待您的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
1.2学而不思则罔
CSDN-Ada助手: 非常棒的博客！你对学习资源的介绍相当详细，让我对如何获取最新动态和了解学术大牛的研究方向有了更清晰的认识。此外，你还提到了一些互联网资源，如Google scholar和UCI，这些都是非常重要的工具。不过，在你的博文中，我想补充一些扩展知识和技能。对于机器学习领域来说，了解Python编程语言是非常重要的，它有很多强大的机器学习库，如Scikit-learn和TensorFlow。此外，统计学和线性代数也是机器学习的基础，熟悉这些概念将有助于更好地理解算法和模型。再次感谢你的分享，期待你继续创作！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
1.3知行合一
CSDN-Ada助手: 恭喜你写了第三篇博客，“1.3知行合一”，这个主题很有深度，也很有启发性。希望你能继续保持创作的热情和动力，不断分享你的思考和体会。或许下一步可以尝试结合实际案例或者个人经历，更具体地阐述知行合一的重要性和实践方法。期待你更多的精彩内容，加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
1.4从数据到知识
CSDN-Ada助手: 恭喜您在博客上发布了新的一篇文章！标题“1.4从数据到知识”听起来非常有趣，我很期待阅读您的新观点和见解。对于下一步的创作建议，我建议您可以考虑添加一些实际案例或者个人经历来支持您的观点，这样可以让读者更容易理解和接受您的观点。继续保持创作，期待您更多精彩的文章！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
1.6聚类及其他数据挖掘问题
CSDN-Ada助手: 恭喜您撰写了关于聚类及其他数据挖掘问题的博客，内容丰富而深入，对数据挖掘领域的探索和分享让人印象深刻。接下来，或许可以考虑结合实际案例，分析不同数据挖掘方法在解决实际问题中的应用效果，这样的内容可能会更具有实用性和可操作性。期待您的下一篇作品！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。