python数据变量概览查看连续性/离散型

最新推荐文章于 2023-06-30 10:10:15 发布

mohana48833985

最新推荐文章于 2023-06-30 10:10:15 发布

阅读量2.6k

点赞数 1

本文链接：https://blog.csdn.net/Caiqiudan/article/details/117194437

版权

该博客主要展示了数据集trainData的某列变量'si_tp'的统计信息。通过check_var函数，对'si_tp'进行了连续性和离散性的判断，并根据分布情况划分了区间，分析了'y1_is_purchase'这一因变量在各区间内的平均购买率。数据显示，'si_tp'的中位数为1000000，购买率随着'si_tp'值的增大而提高。

摘要由CSDN通过智能技术生成

trainData   # 数据概览

最后一列是因变量
在这里插入图片描述

def check_var(df, col):  # 查看变量概览
    '''
    df: DataFrame
    col: column's name
    return/print: describe/value_counts and groupby.y.mean()
    需要修改的部分: 把因变量y1_is_purchase 换成当前dataframe的因变量名
    '''
    if len(df[col].unique())>10:  # 如果唯一值个数大于10，可认为是连续型变量
        print(df[col].describe())
        bins = np.unique(df[col].describe()[3:-1].values)
        bins = np.append(bins, np.inf)
        df['test'] = pd.cut(df[col], bins=bins, right=False)
        print(df.groupby('test').y1_is_purchase.mean())     # 换
    else:  # 唯一值小于等于10，认为是离散型变量
        print(df[col].value_counts().sort_values().sort_index())
        print(df.groupby(col).y1_is_purchase.mean().sort_index())  # 换

if __name__ == '__main__':            
	check_var(trainData, col='si_tp')
	
>>>count    6.842830e+05
	mean     8.554260e+05
	std      4.836979e+05
	min      0.000000e+00
	25%      5.000000e+05
	50%      1.000000e+06
	75%      1.000000e+06
	max      1.000000e+07
	Name: si_tp, dtype: float64
	test
	[0.0, 500000.0)          0.325231
	[500000.0, 1000000.0)    0.635996
	[1000000.0, inf)         0.698135
	Name: y1_is_purchase, dtype: float64