在使用皮尔逊相关系数查找变量指标重要性时遇到的问题

最新推荐文章于 2024-08-19 11:12:00 发布

四季豆炒五花肉

最新推荐文章于 2024-08-19 11:12:00 发布

阅读量848

点赞数 22

文章标签：算法 python 机器学习

本文链接：https://blog.csdn.net/weixin_42981258/article/details/134814849

版权

在尝试建模前用皮尔逊系数来检查一下重要性，结果发现不太妙：

在这里插入图片描述
具体数值是：

Correlation of Features with Target Variable:
 10推广排名（平均）           0.070352
11广告排名（数量）           0.084354
12Amazon 推荐排名（平均）    0.024312
13Amazon 推荐排名（数量）    0.054176
14自然排名               0.024371
15相对排名               0.048068
16竞品排名（平均）           0.002021
17排名竞品（数量）           0.043929
Name: 相关性判断, dtype: float64

然后研究后结论是：

根据我的输出结果，每个特征与“相关性判断”目标变量之间的皮尔逊相关系数都相对较低。这表明这些特征与目标变量之间没有强烈的线性关系。这种情况在实际数据分析中是可能发生的，尤其是在复杂或非线性关系占主导的情况下。以下是我可以考虑的一些步骤：

非线性关系：

考虑可能存在的非线性关系。皮尔逊相关系数只能衡量线性关系的强度。您可以探索其他方法（如决策树、随机森林或其他机器学习模型），这些方法能够捕捉非线性关系。

更复杂的特征工程：

尝试进行更复杂的特征工程。有时，原始特征可能需要一些转换（如对数转换、多项式特征等）才能显现出与目标变量的关联性。

特征选择和维度缩减：

使用特征选择或维度缩减技术（如主成分分析PCA）来找出数据中最有信息量的特征。

其他相关性指标：

使用其他相关性指标（如Spearman秩相关系数或Kendall秩相关系数）来评估特征之间的相关性。这些指标能够衡量非线性关系。

模型选择：

考虑使用更适合捕捉复杂关系的模型，如集成模型、神经网络等。

数据集本身的特性：

分析数据集的特性。有时，数据集中的特征本身可能不足以准确预测目标变量，或者需要更多的数据来提高预测能力。

业务理解和背景知识：

结合业务理解和背景知识审视数据。了解特征与目标变量之间的实际关系可能需要领域专业知识。

数据质量检查：

确保数据质量良好，没有错误或异常值。

综上所述，低相关性提示你可能需要采用更复杂的方法来理解特征与目标变量之间的关系。这可能包括尝试不同的分析技术、特征工程方法或机器学习模型。

使用树模型来评估特征重要性是一种有效的方法，特别是在特征与目标变量之间的关系可能是非线性的情况下。

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import matplotlib.pyplot as plt

# 加载数据集
# data = pd.read_csv('path_to_your_dataset.csv')

# 假设您的输入特征为K至R列（索引10至17），目标输出为U列（索引20）
input_features = data.iloc[:, 10:18]  # K至R列
target_output = data.iloc[:, 20]      # U列

# 如果目标变量是分类的，确保它是数值型的
# 如果它是文本或类别型的，您需要将其转换为数值型（例如使用LabelEncoder）

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(input_features, target_output, test_size=0.2, random_state=42)

# 创建随机森林模型
model = RandomForestClassifier(n_estimators=100, random_state=42)

# 训练模型
model.fit(X_train, y_train)

# 获取特征重要性
feature_importances = model.feature_importances_

# 可视化特征重要性
plt.figure(figsize=(12, 6))
feature_names = input_features.columns
plt.barh(feature_names, feature_importances)
plt.xlabel('Feature Importance')
plt.ylabel('Feature Name')
plt.title('Feature Importance Using Random Forest')
plt.show()

在这个代码中：

我们首先加载数据并提取输入特征和目标输出。

使用 RandomForestClassifier 来创建模型，这里假设目标变量是分类的。如果目标变量是连续的，您可以使用 RandomForestRegressor。

训练随机森林模型并获取特征重要性。

最后，使用条形图可视化每个特征的重要性。

请根据您的数据集进行适当的调整，例如，如果目标变量是文本或类别型的，您需要先将其转换为数值型。如果您的目标变量是连续的，应该使用 RandomForestRegressor 而不是 RandomForestClassifier。

四季豆炒五花肉

关注

22
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
在使用皮尔逊相关系数查找变量指标重要性时遇到的问题

具体数值是：然后研究后结论是：根据我的输出结果，每个特征与“相关性判断”目标变量之间的皮尔逊相关系数都相对较低。这表明这些特征与目标变量之间没有强烈的线性关系。这种情况在实际数据分析中是可能发生的，尤其是在复杂或非线性关系占主导的情况下。以下是我可以考虑的一些步骤：考虑可能存在的非线性关系。皮尔逊相关系数只能衡量线性关系的强度。您可以探索其他方法（如决策树、随机森林或其他机器学习模型），这些方法能够捕捉非线性关系。尝试进行更复杂的特征工程。有时，原始特征可能需要一些转换（如对数转换、多项式特征等）才能显
复制链接

扫一扫