Python数据可视化 | Python特征重要性图制作
Python中计算特征重要性的3种必备方法
任何有志成为数据科学家的人都必须知道的内容
如何找到数据集中最重要的特征?有很多技巧,本文将教您三种任何数据科学家都应该知道的方法。
阅读后,您将知道如何仅使用几行代码来计算Python中的特征重要性。您还将学到这些技巧的前提条件,这对于使它们正常工作至关重要。
您可以在此文章的笔记本中下载笔记本。
文章的结构如下:
数据集加载和准备
方法1 — 从系数获取重要性
方法2 — 从基于树的模型获取重要性
方法3 — 从PCA载荷得分获取重要性
结论 数据集加载和准备
让我们尽量少花时间在这里。您将使用Scikit-Learn内置的乳腺癌数据集。您还需要Numpy、Pandas和Matplotlib用于各种分析和可视化目的。
以下代码片段显示了如何导入库并加载数据集:
导入库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
数据集现在不是最方便的格式。您将大部分时间使用Pandas数据帧,所以让我们快速将其转换为一个数据帧。以下代码片段将预测变量和目标变量连接到一个数据帧中:
加载数据集
data = load_breast_cancer()
df = pd.DataFrame(data.data, columns=data.feature_names)
df[‘target’] = data.target