结合sklearn的可视化工具Yellowbrick：超参与行为的可视化带来更优秀的实现

最新推荐文章于 2024-07-31 20:06:27 发布

一个追逐自我的程序员

最新推荐文章于 2024-07-31 20:06:27 发布

阅读量2k

点赞数 1

分类专栏： github python

本文链接：https://blog.csdn.net/qq_34739497/article/details/80508262

版权

Yellowbrick 是一套视觉诊断工具，它扩展了 Scikit-Learn API，将模型选择过程可视化。工具包括特征、分类、回归、聚类和模型选择等多方面的可视化，帮助用户更好地理解和优化模型。例如，它提供了特征重要性排序、PCA投影、类平衡分析等功能。

摘要由CSDN通过智能技术生成

Yellowbrick 是一套名为「Visualizers」的视觉诊断工具，它扩展了 Scikit-Learn API 以允许我们监督模型的选择过程。简而言之，Yellowbrick 将 Scikit-Learn 与 Matplotlib 结合在一起，并以传统 Scikit-Learn 的方式对模型进行可视化。

可视化器
可视化器（Visualizers）是一种从数据中学习的估计器，其主要目标是创建可理解模型选择过程的可视化。在 Scikit-Learn 的术语中，它们类似于转换器（transformer），其在可视化数据空间或包装模型估计器上类似「ModelCV」（例如 RidgeCV 和 LassoCV）方法的过程。Yellowbrick 的主要目标是创建一个类似于 Scikit-Learn 的 API，其中一些流行的可视化器包括：

特征可视化
- Rank Features：单个或成对特征排序以检测关系
- Radial Visualization：围绕圆形图分离实例
- PCA Projection：基于主成分分析映射实例
- Manifold Visualization：通过流形学习实现高维可视化
- Feature Importances：基于模型性能对特征进行排序
- Recursive Feature Elimination：按重要性搜索最佳特征子集
- Scatter and Joint Plots：通过特征选择直接进行数据可视化
分类可视化
- Class Balance：了解类别分布如何影响模型
- Class Prediction Error：展示分类的误差与主要来源
- Classification Report：可视化精度、召回率和 F1 分数的表征
- ROC/AUC Curves：受试者工作曲线和曲线下面积
- Confusion Matrices：类别决策制定的视觉描述
- Discrimination Threshold：搜索最佳分离二元类别的阈值
回归可视化
- Prediction Error Plots：沿着目标域寻找模型崩溃的原因
- Residuals Plot：以残差的方式展示训练和测试数据中的差异
- Alpha Selection：展示 alpha 的选择如何影响正则化
聚类可视化
- K-Elbow Plot：使用肘法（elbow method）和多个指标来选择 k
- Silhouette Plot：通过可视化轮廓系数值来选择 k
模型选择可视化
- Validation Curve：对模型的单个超参数进行调整
- Learning Curve：展示模型是否能从更多的数据或更低的复杂性中受益
文本可视化
- Term Frequency：可视化语料库中词项的频率分布
- t-SNE Corpus Visualization：使用随机近邻嵌入来投影文档
实例

#特征之间协方差可视化
from yellowbrick.features import Rank2D
from sklearn.datasets import load_iris
data=load_iris()
visualizer = Rank2D(features=data['feature_names'], algorithm=&