主成分分析

「什么样的信息/变量才能被压缩?」

  • 只有相关性强的变量才能被压缩。如场景2的数学建模和科技节活动,都是学生们理科思维的体现方式,所以可以考虑把这两者合并成一个新的叫 “ 理科思维 ” 的变量,这样便可以不用两个变量都要费笔墨描述,关键是 “ 理科思维 ” 这个新的变量里面数学建模和科技节这两个旧变量的各自的占比是多少。(因为这里并没有因变量,所以这两个旧变量的权重系数无法简单的使用多元线性回归来完成)如果变量间的关系几乎是独立的却依然强制压缩(比如体育和演讲),则会大大加剧信息的缺失程度,这也是为什么 “ 压缩 ” 其实带有一丝迫不得已的意味,都是以尽可能损失最少的信息为前提。
  • 主成分分析是只能针对连续变量来进行压缩,分类变量则不行。因为分类变量之间可以说是完全独立的,并没有正负两种相关性一说,如性别男和女之间就完全是独立的。如果一定也要将分类变量压缩的话,通常会对他们进行WOE转换(后续推文会提及),之后就可以愉快的进行压缩了。所以分类变量是没办法进行单独压缩的,因为没有对应的算法。有些人可能会直接对分类变量间进行卡方检验,然后把 p 值大的删去一些,这个其实应该被划分为手工的范畴,并不属于算法。

等式右边的系数正负与否并没有什么意义,通常看绝对值即可。第一个主成分 P1中受五个变量的影响程度无明显差别,权重都在0.42 ~ 0.47间 主成分P2受第一个变量的影响最大,权重系数为0.83,受第三个变量影响最小,权重为0.14

PCA 的功能是压缩信息,压缩后的每个主成分都能够解释一部分信息的变异程度(统计学家喜欢用方差表示信息的变异程度),所以,只需要满足解释信息的程度达到一定的值即可。

应用场景

  • 综合打分:这种情况在日常中经常遇到,比如高考成绩的加总、员工绩效的总和排名。这类情况要求只出一个综合打分,因此主成分分析比较适合。相对于讲单项成绩简单加总的方法,主成分分析会赋予区分度高的单项成绩以更高的权重,分值更合理。不过当主成分分析不支持只取一个主成分时,就不能使用该方法了。-

  • 数据描述:描述产品情况,比如著名的波士顿矩阵,子公司业务发展状况,区域投资潜力等,需要将多变量压缩到少数几个主成分进行描述,如果压缩到两个主成分是最理想的。这类分析一般做主成分分析是不充分的,做到因子分析更好。

案例背景

某金融服务公司为了了解贷款客户的信用程度,评价客户的信用等级,采用信用评级常用的5C(品质 Character,能力 Capacity,资本 Capital,抵押 Collateral,条件 Condition)方法, 说明客户违约的可能性。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值