toad库-CSDN博客

本文链接：https://blog.csdn.net/u013172930/article/details/144854215

toad 是一个功能强大的 Python 库，专为 数据分析、特征工程 和 信用评分 等任务设计。它提供了一系列便捷的工具，帮助数据科学家和分析师高效地进行数据预处理、探索性数据分析（EDA）、特征选择与转换，以及模型评估等工作。特别是在金融风控和信用评分卡建模领域，toad 展现出了其独特的优势和广泛的应用。

1. 安装 `toad`

toad 可以通过 pip 轻松安装：

pip install toad

确保你的 Python 版本为 3.6 及以上，以获得最佳兼容性和功能支持。

2. 主要功能

数据探索与可视化

数据描述：快速生成数据的统计描述，如均值、中位数、标准差等。
缺失值分析：识别和处理数据中的缺失值。
分布可视化：绘制特征的分布图、箱线图、直方图等，帮助理解数据分布情况。
相关性分析：计算特征之间的相关系数，识别多重共线性问题。

特征工程

数据清洗：处理缺失值、异常值，确保数据质量。
特征转换：标准化、归一化、对数转换等，提升模型性能。
类别变量处理：独热编码（One-Hot Encoding）、标签编码（Label Encoding）等。

分箱（Binning）

等频分箱：将连续变量分为若干个包含相同样本数的区间。
等距分箱：将连续变量分为若干个宽度相同的区间。
自定义分箱：根据业务知识或特定需求，自定义分箱规则。

WOE 编码

Weight of Evidence（WOE）：常用于信用评分卡中，通过将类别变量转换为 WOE 值，提升模型的解释性和预测能力。

特征选择

单变量分析：根据单个特征与目标变量的相关性，选择重要特征。
多变量分析：结合多种指标，综合选择对模型最有贡献的特征。

模型评估与验证

性能指标：计算 AUC、KS、准确率、召回率等多种模型评估指标。
交叉验证：进行交叉验证，确保模型的泛化能力。

3. 基本用法示例

以下通过一个信用评分的简单示例，展示 toad 的基本用法。

数据加载与查看

import numpy as np
import pandas as pd
import toad as td
from toad.plot import bin_plot
import matplotlib.pyplot as plt

# 加载示例数据集
data = pd.read_csv('credit_data.csv')

# 查看数据前几行
print(data.head())

# 查看数据基本信息
print(td.detector.detect(data))

数据探索

# 描述性统计
print(td.detector.getDescribe(data))

# 缺失值分析
print(td.detector.countBlank(data['AGE']))

特征分箱与 WOE 转换

# 自动分箱并计算 WOE
combiner = td.transform.Combiner()
combiner.fit(data[['AGE', 'default.payment.next.month']], y='default.payment.next.month',method='chi')

# 查看分箱结果
print(combiner.export())

# 将分箱结果应用于数据
data = combiner.transform(data[['AGE', 'default.payment.next.month']], labels=True)
print(data.head(10))

# 画分箱图
bin_plot(data, x="AGE", target='default.payment.next.month')
plt.show()

# WOE映射
woe_transformer = td.transform.WOETransformer()
woe = woe_transformer.fit_transform(data[['AGE']], data['default.payment.next.month'])
print(woe)

特征选择

# 特征选择
selected_features_data, droped_features = (
    td.selection.select(data, target='default.payment.next.month',
            empty= 0.9, iv= 0.02,corr = 0.7, return_drop=True))
print(selected_features_data.columns)

模型构建与评估

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# 准备数据
X = selected_features_data.drop(columns = ['default.payment.next.month'])
y = selected_features_data['default.payment.next.month']

# 拆分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 训练逻辑回归模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 预测概率
y_pred_prob = model.predict_proba(X_test)[:, 1]

# 计算 AUC
auc = td.metrics.AUC(y_pred_prob, y_test)
print(f'AUC: {auc}')

4. 高级用法

自定义分箱规则

# 自定义分箱边界
custom_bins = [0, 25, 35, 45, 60, 100]

# 应用分箱
data['age_custom_binned'] = pd.cut(data['AGE'], bins=custom_bins, labels=False)

# WOE映射
woe_transformer = td.transform.WOETransformer()
woe = woe_transformer.fit_transform(data[['age_custom_binned']], data['default.payment.next.month'])
print(woe)

处理类别变量

# 对非数字类别变量独热编码
data_encoded = td.utils.get_dummies(data)
print(data_encoded)

高级特征选择

# 使用 Lasso 进行逐步特征选择
final_data, drop_features = td.selection.stepwise(
    frame=data,
    target='default.payment.next.month',
    estimator='lasso',        # 使用逻辑回归模型
    direction='both',         # 双向选择
    criterion='aic',          # 使用 AIC 作为评价标准
    p_enter=0.05,             # 新增特征的 p 值阈值
    p_remove=0.05,            # 移除特征的 p 值阈值
    p_value_enter=0.2,        # 双向选择中的 p 值阈值
    intercept=True,           # 包含截距项
    max_iter=1000,             # 最大迭代次数
    return_drop=True,         # 返回被剔除的特征名称
    exclude=['AGE']        # 保留 'AGE' 特征，不被剔除
)