结合sklearn的可视化工具Yellowbrick:超参与行为的可视化带来更优秀的实现

Yellowbrick 是一套视觉诊断工具,它扩展了 Scikit-Learn API,将模型选择过程可视化。工具包括特征、分类、回归、聚类和模型选择等多方面的可视化,帮助用户更好地理解和优化模型。例如,它提供了特征重要性排序、PCA投影、类平衡分析等功能。
摘要由CSDN通过智能技术生成

Yellowbrick 是一套名为「Visualizers」的视觉诊断工具,它扩展了 Scikit-Learn API 以允许我们监督模型的选择过程。简而言之,Yellowbrick 将 Scikit-Learn 与 Matplotlib 结合在一起,并以传统 Scikit-Learn 的方式对模型进行可视化。

  • 可视化器
    可视化器(Visualizers)是一种从数据中学习的估计器,其主要目标是创建可理解模型选择过程的可视化。在 Scikit-Learn 的术语中,它们类似于转换器(transformer),其在可视化数据空间或包装模型估计器上类似「ModelCV」(例如 RidgeCV 和 LassoCV)方法的过程。Yellowbrick 的主要目标是创建一个类似于 Scikit-Learn 的 API,其中一些流行的可视化器包括:

    特征可视化
    • Rank Features:单个或成对特征排序以检测关系
    • Radial Visualization:围绕圆形图分离实例
    • PCA Projection:基于主成分分析映射实例
    • Manifold Visualization:通过流形学习实现高维可视化
    • Feature Importances:基于模型性能对特征进行排序
    • Recursive Feature Elimination:按重要性搜索最佳特征子集
    • Scatter and Joint Plots:通过特征选择直接进行数据可视化
    分类可视化
    • Class Balance:了解类别分布如何影响模型
    • Class Prediction Error:展示分类的误差与主要来源
    • Classification Report:可视化精度、召回率和 F1 分数的表征
    • ROC/AUC Curves:受试者工作曲线和曲线下面积
    • Confusion Matrices:类别决策制定的视觉描述
    • Discrimination Threshold:搜索最佳分离二元类别的阈值
    回归可视化
    • Prediction Error Plots:沿着目标域寻找模型崩溃的原因
    • Residuals Plot:以残差的方式展示训练和测试数据中的差异
    • Alpha Selection:展示 alpha 的选择如何影响正则化
    聚类可视化
    • K-Elbow Plot:使用肘法(elbow method)和多个指标来选择 k
    • Silhouette Plot:通过可视化轮廓系数值来选择 k
    模型选择可视化
    • Validation Curve:对模型的单个超参数进行调整
    • Learning Curve:展示模型是否能从更多的数据或更低的复杂性中受益
    文本可视化
    • Term Frequency:可视化语料库中词项的频率分布
    • t-SNE Corpus Visualization:使用随机近邻嵌入来投影文档

    实例

#特征之间协方差可视化
from yellowbrick.features import Rank2D
from sklearn.datasets import load_iris
data=load_iris()
visualizer = Rank2D(features=data['feature_names'], algorithm=&
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值