如何判断特征之间是否存在线性关系？

00S7

于 2024-09-25 18:29:06 发布

阅读量267

点赞数 3

文章标签： python 人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/uuu_scai/article/details/142530104

版权

1、绘制散点图

观察点的分布情况：如果点大致沿直线分布，说明存在线性关系。

import matplotlib.pyplot as plt
import seaborn as sns
sns.scatterplot(x='feature1', y='feature2', data=df)
plt.title('Scatter Plot of Feature1 vs Feature2')
plt.show()

2、计算特征之间的相关系数

correlation = df['feature1'].corr(df['feature2'])
print('Pearson Correlation:', correlation)

相关系数的取值范围为[-1, 1]，接近 1 或 -1 表示强线性关系，接近 0 表示线性关系弱。

3、拟合线性回归模型并检查p值和t值。

import statsmodels.api as sm

X = df[['feature1']] # 自变量
y = df['feature2'] # 因变量
X = sm.add_constant(X) # 添加常数项
model = sm.OLS(y, X).fit()
print(model.summary())

对于每个特征，查看其 t 值和p值：
一般情况下，t 值的绝对值大于 2 可能表示该特征与目标变量之间存在一定的线性关系（但具体标准可以根据样本大小调整）。
如果 p 值小于 0.05，说明在 95% 的置信水平下，该特征与目标变量之间存在显著线性关系。

4、残差分析

拟合线性回归后，分析残差（预测值与实际值之间的差异）。如果残差图中的点随机分布，说明线性模型适合数据；如果存在明显模式，说明线性关系不够充分。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。