原文出处:拓端数据部落公众号
偏最小二乘回归:
我将围绕结构方程建模(SEM)技术进行一些咨询,以解决独特的业务问题。我们试图识别客户对各种产品的偏好,传统的回归是不够的,因为数据集的高度分量以及变量的多重共线性。PLS是处理这些有问题的数据集的强大而有效的方法。
主成分分析PCA降维方法和R语言分析葡萄酒可视化实例
主成分分析PCA降维方法和R语言分析葡萄酒可视化实例
,时长04:30
主成分回归是我们将要探索的一种选择,但在进行背景研究时,我发现PLS可能是更好的选择。我们将看看PLS回归和PLS路径分析。我不相信传统的回归在这一点上是有价值的,因为我们没有良好的感觉或理论来对潜在的结构做出假设。此外,由于数据集中的变量数量众多,我们正在将SEM技术扩展到极限。Haenlein,M&Kaplan,A.,2004年,“初步指南偏最小二乘分析”,Understanding Statistics,3(4),283-297中可以找到关于这个限制的有趣讨论。
[1]“diesel”“turbo”“two.doors”“hatchback”“wheel.base”
[6]“length”“width”“height”“curb.weight”“eng.size”
[ 11]“马力”“峰值.rpm”“价格”“city.mpg”
[16]“ highway.mpg ”
这些数据有16个变量和30个观测值。
关于PLS回归的一个有趣的事情是你可以有多个响应变量,plsdepot可以适应这种类型的分析。在这种情况下,我只想分析一个Y变量,那就是价格。
该包将响应变量列放在数据帧的末尾。
#把变量价格(第13列)放在最后
pls1 $ x.scores X分数(T分量)
$ x.loads X-loadings
$ y.scores Y-scores(U-components)
$ y.loads Y-loadings
$ cor.xyt得分相关性
$ raw.wgs原始权重
$ mod.wgs修改权重
$ std.coefs标准系数
$ reg.coefs常规系数
$ R2 R平方
$ R2Xy解释Xy的方差T
$ y.pred y-预测
$ resid 残差
$ T2 T2经济系数
>#相关图; 注意什么与价格高度相关
#plot每个观测预测与实际观测
我们将不得不继续查看不同数量的成分以确定最佳模型,并从实际角度查看潜在变量是否有意义。
最受欢迎的见解
3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)
5.R语言回归中的Hosmer-Lemeshow拟合优度检验