数据挖掘方法与模型——笔记1

一、降维方法

1.1  数据挖掘中降低维度的必要性

数据分析人员需要防范多重共线性,即预测变量之间相互关联的情形,会导致解空间不稳定。具有高度相关性变量的模型往往强调某一特定成分,实际上会被重复计算。

高维空间本身具有稀疏性。过多的变量会妨碍查找规律的建立,将预测变量的数目保持在可控的范围内。

保留所有维度将会使问题变得棘手,目前最先进的数据可视化技术也不超过5维。

降维的目的:

  • 减少预测变量的个数
  • 确保这些预测变量是相互独立的
  • 提供一个框架来解释结果

1.2  主成分分析法(PCA)
主成分分析是指将多个变量通过线性组合,选出较少个数的重要变量集合来描述相关结构的一种统计方法,这些线性组合被称为”成分“。
m个变量组成的数据集的总变异,可以由k个线性组合变量组成的集合来表示。这意味着二者反映的信息几乎相等。
初始变量X1,X2,...,Xm组成m维空间的一个坐标系,主成分代表一个新的坐标系,可通过沿着最大变化的方向旋转元坐标系得到。
1.2.1  房屋价值预测
自变量:收入、房龄、房数、卧室数、人口数、家庭数、北纬、西经
分析人员降维前将数据减少维度时,首先要对数据进行标准化处理,是每个变量的均值为0,标准差为1。
矩阵图和相关矩阵是用来观察预测变量之间的相关性结构。
如果不考虑数据集中的多重共线性,回归结果将变得非常不稳定,预测值的微小变化将导致回归系数的极大变化。
一般来说,第一主成分可以被看做是预测值相关性的一个最佳总结(48%),可以使线性组合更具有解释性。第二主成分是次佳的变量的线性组合(24%)。
1.2.2  应提取多少个主成分
动机:减少不同解释性成分的数量。
只保留第一主成分?还是保留全部8个主成分? 通常介于二者之间。
提取标准:①特征值标准 入i >1  ②解释变异比例 入i/m>60%~90%  ③最小共性标准   ④碎石图标准特征值变异量差异不大
建议指标:①保留前三个主成分 ②解释变异比例 入i/m>80%    ③最小共性标准   ④碎石图标准主成分不超过4个
主成分描述(变量与成分的权重关系)
  • 第一主成分(地块组大小变量):平均房龄  -0.429    总房数  0.956    总房间数  0.970    人口数  0.933    家庭数  0.972    
  • 第二主成分(地理变量):北纬  0.970    西经  -0.969    加州为西北-东南方向
  • 第三主成分(收入):平均收入  0.922    平均房龄  -0.407   高收入-新房   低收入-旧房
  • 第四主成分(房龄):平均收入  0.370    平均房龄   0.806   高收入-旧房   低收入-新房
第三第四主成分看似矛盾,实际上揭示了一种先后提取的关系。
去除权重小于0.5的变量:4-2-1-1 
主成分:代表不同变量间共有的部分变异。
共性:代表各变量在主成分分析中的总体重要性。较高的共性体现主成分成功提取初始变量中的大部分波动;较低的共性说明任由未提取的波动。
对于一个给定的变量,共性的值等于各拳种部分的平方和。
主成分分析:训练数据集    主成分验证:特使数据集

1.3  因子分析法
因子分析法和主成分分析法有很大的关系,但目的不同。
主成分分析法为了描述或寻找一些不相关的成分替代初始变量,即确定各个原始变量线性组合的正交成分。
因子分析代表了一个数据模型,更为精巧。
因子分析模型假设向量X1,X2,...,能被表示为不能直接观察到的K个随机变量F1,F2,Fk,...(即共同因子)的线性组合与一个误差项e=e1,e2,...ek的和。
(X-u)=Lm×k*Fk×1+em×1  其中:E(F)=0, Cov(F)=0.
因子分析提供的解并不是唯一解。
1.3.1  因子分析在成年人数据集中的应用
预测一个人的年收入是否超过5万美元。    因子分析变量:年龄、社会地位、受教育程度、周工作时间、投资净收入。
各变量间相关性很少,在弱相关性结构中用减少位数的方法是比较困难的。
因子分析建模标准
KMO样本充足度测量值,小于0.5时,因子分析法不合适。
假设检验,p值大于0.1时,不适用。
通常抽取两个因子。
1.3.2  因子旋转
使用因子旋转法来帮助解释因子。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值