数据预处理:解决运营数据的共线性问题

 所谓共线性(又称多重共线性)问题指的是输入的自变量之间存在较高的先行相关度。共线性问题会导致回归模型的文档行和准确性大大降低,另外,过多无关的维度参与计算也会浪费计算资源和时间。

 共线性问题是否常见取决于具体业务场景,常见的具有明显的共线性的维度或变量包括如下:

  • 访问量和页面浏览量
  • 页面浏览量和访问时间
  • 订单量和销售额
  • 订单量和转化率

导致出现变量间共线性的原因可能包括:

  1. 数据样本不够,导致共线性存在偶然性,这其实反映了缺少数据对于数据建模的影响,共线性仅仅是影响的一部分。
  2. 多个变量都基于时间有共同或相反的演变趋势,例如春节期间的网络销售量和销售额都相对于正常时间有下降趋势。
  3. 多个变量间存在一定的推移关系,但总体上变量间的趋势一致,只是发生的时间点不一致,例如品牌广告费用和销售额之间,通常是品牌广告先进行大范围的曝光和信息推送,经过一定时间传播后,销售额才能爆发出来。
  4. 多个变量间存在近似线性相关的关系。例如,如果用y代表访客数,用x代表展示广告费用,那么二者的关系很可能是y=2*x+b,即每投放1块钱,可以带来大概2~3个房客。

1. 如何检验共线性

 共线性一般通过容忍度,方差膨胀因子,特征值这几个特征数据来判断。

  • 容忍度(Tolerance):容忍度是每个自变量作为因变量对其他自变量进行回归建模时得到的残差比例,大小用1减得到的决定系数来表示。容忍度的值介于0.1和1之间,如果值越小,说明这个自变量与其他自变量间越可能存在共线性问题
  • 方差膨胀因子(Variance Inflation Factor, VIF):VIF是容忍度的倒数,值越大则共线性问题越明显,通常以10作为判断边界。当VIF<10,不存在多重共线性;当10<=VIF<100,存在较强的多重共线性;当VIF>=100,存在严重多重共线性
  • 特征值(Eigenvalue):该方法实际上就是对自变量进行主成分分析,如果多个维度的特征值等于0,则肯能有比较严重的共线性。

除此之外,还可以使用相关系数辅助判断,当相关系数R>0.8时就表示可能存在较强的相关性。

2. 解决共线性的5种常用方法

解决共线性的5种常用方法如下:

  1. 增大样本量:通过增加样本量,来消除由于数据量补足而出现的偶然共线性现象,在可行的前提下,这种方法是需要考虑的;但即使增加了样本量,也可能无法解决共线性问题,原因是很可能变量间确实存在这个问题。

  2. 岭回归法(Ridge Regression):岭回归分析是一种专用于共线性问题的有偏估计回归方法,实质上是一种改良的最小二乘估计法。它通过放弃最小二乘法的无偏性,以损失部分信息,降低精度为代价来获得更实际和可靠性更强的回归系数。因此岭回归在存在较强共线性的回归应用中较为常用。

  3. 逐步回归法(Stepwise Regression):逐步回归法是 每次引入一个自变量并进行统计检验,然后逐步引入其他变量,同时对所有变量的回归系数进行检验。如果原来引入的变量由于后面变量的引入而变得不再显著,那么就将其剔除,逐步得到最优回归方程。

  4. 主成分回归(Principal Components Regression):通过主成分分析,将原始参与建模的变量转换为少数几个主成分,每个主成分是原变量的共线性组合,然后基于主成分做回归分析,这样也可以在不丢失重要数据特征的前提下避开共线性问题。

  5. 人工去重:直接结合人工经验,对参与回归模型计算的自变量进行删减,也是一个较为常用的方法,但这种方法需要操作者对于业务,模型和数据都有相对深入的立即。

3. Python处理共线性问题

import numpy as np
from sklearn.linear_model import Ridge

import pandas as pd

#读取数据
# data = np.loadtxt('/Users/nxcjh/learn/python-yunying/python_book/chapter3/data5.txt', delimiter='\t')
data = pd.read_table('/Users/nxcjh/learn/python-yunying/python_book/chapter3/data5.txt', delimiter='\t')
x = data.iloc[:, :-1] # 切分变量
y = data.iloc[:, -1] # 切分预测变量
# 使用岭回归算法进行回归分析
model_ridge = Ridge(alpha=1.0) # 建立岭回归模型对象
model_ridge.fit(x, y) # 输入x/y训练模型
print("输出自变量的系数:")
print(model_ridge.coef_) # 打印输出自变量的系数
print("输出截距:")
print(model_ridge.intercept_) # 打印输出截距


输出自变量的系数:
[ 8.49478788e+01 -1.06717591e-03  9.71111938e-04 -9.75225980e-04
  2.12686655e-05  2.22421692e-04 -3.02339279e-06 -8.85519635e-06
  5.47707940e-07]
输出截距:
-7436.9872186787

使用主成分回归进行回归分析

from sklearn.decomposition import PCA
from sklearn.linear_model import LinearRegression


model_pca = PCA() # 建立PCA模型对象
data_pca = model_pca.fit_transform(x) # 将x进行主成分分析
ratio_cumsm = np.cumsum(model_pca.explained_variance_ratio_) # 得到所有主成分方差占比的累积数据
print("所有主成分方差占比的累积数据:")
print(ratio_cumsm)

rule_index = np.where(ratio_cumsm > 0.8) # 获取方差占比超过0.8 的所有索引值
min_index = rule_index[0][0] # 获取方差最小索引值
data_pca_result = data_pca[:, :min_index + 1] # 根据最小索引值提取主成分
model_liner = LinearRegression() # 建立回归模型对象
model_liner.fit(data_pca_result, y) # 输入主成分数据和预测变量y 并训练模型
print("输出自变量的系数:")
print(model_liner.coef_) # 打印输出自变量的系数
print("输出截距:")
print(model_liner.intercept_) # 打印输出截距
所有主成分方差占比的累积数据:
[0.90407972 0.98566955 0.99957336 0.99995927 0.99999562 0.99999939
 0.99999999 1.         1.        ]
输出自变量的系数:
[1.24317745e-05]
输出截距:
1058.7735735735737
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小狼躲藏

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值