所以我有一个银行数据集,在这里我必须预测客户是否需要定期存款。我有一栏叫做工作;这是绝对的,具有每个客户的工作类型。我目前处于EDA流程中,想确定哪种工作类别对正面预测的贡献最大。
我打算通过逻辑回归来做到这一点(不确定这是否正确,欢迎使用其他方法。)
所以这就是我所做的;
我对每个工作类别进行了一次k-hot编码(每种工作类型都有1-0值),而目标i对k-1进行了一次热门编码,并且对Target_yes具有1-0值(1 =客户接受了定期存款和0(客户不接受)。
job_management job_technician job_entrepreneur job_blue-collar job_unknown job_retired job_admin.job_services job_self-employed job_unemployed job_housemaid job_student01000000000001010000000000200100000000030001000000004000010000000.......................................452060100000000004520700000100000045208000001000000452090001000000004521000100000000045211rows×12columns
目标列如下所示;
0010203040..452061452071452081452090452100Name:Target_yes,Length:45211,dtype:int32
我将此拟合为sklearn logistic回归模型并获得了系数。无法解释它们,我寻找了替代方案并遇到了统计模型版本。使用logit函数也是如此。在我在线看到的示例中,他使用了sm.get_constants作为x变量。
<