【Python】理解WOE（Weight of Evidence）和IV（Information Value）

最新推荐文章于 2024-08-30 08:36:40 发布

音乐学家方大刚

最新推荐文章于 2024-08-30 08:36:40 发布

阅读量1.1k

点赞数 7

分类专栏： Python 文章标签： python 开发语言

本文链接：https://blog.csdn.net/qq_35240081/article/details/138864711

版权

Python 专栏收录该内容

158 篇文章

订阅专栏

忠孝东路走九遍
脚底下踏著曾经你我的点点
我从日走到夜
心从灰跳到黑
我多想跳上车子离开伤心的台北
忠孝东路走九遍
穿过陌生人潮搜寻你的脸
有人走的匆忙
有人爱的甜美
谁会在意擦肩而过的心碎
🎵 动力火车《忠孝东路走九遍》

在信用评分和风险管理领域，WOE（Weight of Evidence）和IV（Information Value）是两种常用的特征选择和评估方法。这些方法有助于我们理解每个特征对目标变量（如好坏客户）的区分能力。本文将介绍WOE和IV的概念，并通过示例说明如何使用它们进行特征分析。

WOE（Weight of Evidence）的概念

WOE是一种衡量特征分箱中好坏客户（或正负样本）分布的方法。它通常用于处理二分类问题，如信用评分中的好客户和坏客户。WOE的计算公式如下：
在这里插入图片描述
WOE的主要优点在于：

线性化特征：WOE可以将原始特征转换为线性特征，有助于线性模型的训练。
处理缺失值：WOE能够较好地处理缺失值，通过合理分箱可以降低其影响。

IV（Information Value）的概念

IV用于衡量特征对目标变量的区分能力。IV值越高，表示该特征对目标变量的预测能力越强。IV的计算公式如下：
在这里插入图片描述

示例：使用WOE和IV进行特征分析

下面是一个简单的Python示例，展示如何计算WOE和IV值并分析特征。

导入必要的库

import pandas as pd
import numpy as np

定义WOE和IV计算函数

def calculate_woe_iv(df, feature, target, bins=10, is_categorical=False, epsilon=1e-6):
    total_bad = df[target].sum()
    total_good = len(df) - total_bad

    if is_categorical:
        grouped = df.groupby(feature)[target].agg(['count', 'sum'])
    else:
        df['bin'] = pd.qcut(df[feature].rank(method='first'), bins, duplicates='drop')
        grouped = df.groupby('bin')[target].agg(['count', 'sum'])

    grouped['good'] = grouped['count'] - grouped['sum']
    grouped['bad_rate'] = (grouped['sum'] + epsilon) / (total_bad + epsilon)
    grouped['good_rate'] = (grouped['good'] + epsilon) / (total_good + epsilon)

    grouped['woe'] = np.log(grouped['good_rate'] / grouped['bad_rate'])
    grouped['iv'] = (grouped['good_rate'] - grouped['bad_rate']) * grouped['woe']
    iv = grouped['iv'].sum()
    
    return iv, grouped

创建示例数据

data = {
    'online_nums': np.random.random(100),
    'user_balance': np.random.random(100),
    'avg_arpu': np.random.random(100),
    'mz_flag': np.random.randint(0, 2, 100),
    'target': np.random.randint(2, size=100)
}
df = pd.DataFrame(data)

计算IV值并输出结果

continuous_features = ['online_nums', 'user_balance', 'avg_arpu']
categorical_features = ['mz_flag']

iv_values = {}

# 连续变量
for feature in continuous_features:
    iv, iv_table = calculate_woe_iv(df, feature, 'target', is_categorical=False)
    iv_values[feature] = iv
    print(f"IV值 - {feature}: {iv}")
    print(iv_table)

# 分类变量
for feature in categorical_features:
    iv, iv_table = calculate_woe_iv(df, feature, 'target', is_categorical=True)
    iv_values[feature] = iv
    print(f"IV值 - {feature}: {iv}")
    print(iv_table)

# 打印所有特征的IV值
print("所有特征的IV值:")
for feature, iv in iv_values.items():
    print(f"{feature}: {iv}")