python--银行反欺诈模型--建立模型和模型检验

最新推荐文章于 2024-04-18 18:00:00 发布

rong_king_

最新推荐文章于 2024-04-18 18:00:00 发布

阅读量1.2k

点赞数

本文链接：https://blog.csdn.net/rong_king_/article/details/105368162

版权

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split,KFold,cross_val_predict
loans=pd.read_csv("cleaned_loans2007.csv")
lr=LogisticRegression()
cols=loans.columns
train_cols=cols.drop("loan_status")#除掉label的剩下的特征
features=loans[train_cols]
target=loans["loan_status"]
kf=KFold(features.shape[0],random_state=1)#KFold就是将数据折成几折的
predictions=cross_val_predict(lr,features,target,cv=kf)#这个函数就是带入模型，类别和特征，还有将数据折成几折
predictions=pd.Series(predictions)
predictions
#算出混淆矩阵
fp_filter=(predictions==1)&(loans["loan_status"]==0)
fp=len(predictions[fp_filter])
fn_filter=(predictions==0)&(loans["loan_status"]==1)
fn=len(predictions[fn_filter])
tp_filter=(predictions==1)&(loans["loan_status"]==1)
tp=len(predictions[tp_filter])
tn_filter=(predictions==0)&(loans["loan_status"]==0)
tn=len(predictions[tn_filter])
tpr=tp/float(tp+fp)
fpr=fp/float(fp+tn)
print(tpr)
print(fpr)
#发现两个概率都很高，由于类别中1的样本比较多，0的样本较少，样本分配不均衡，所以要分配权重

lr=LogisticRegression(class_weight="balance")#通过参数调整权重，1和0的样本数量差不多
kf=KFold(features.shape[0],random_state=1)
predictions=cross_val_predict(lr,features,target,cv=kf)
predictions=pd.Series(predictions)
predictions
#算出混淆矩阵
fp_filter=(predictions==1)&(loans["loan_status"]==0)
fp=len(predictions[fp_filter])
fn_filter=(predictions==0)&(loans["loan_status"]==1)
fn=len(predictions[fn_filter])
tp_filter=(predictions==1)&(loans["loan_status"]==1)
tp=len(predictions[tp_filter])
tn_filter=(predictions==0)&(loans["loan_status"]==0)
tn=len(predictions[tn_filter])
#比率
tpr=tp/float(tp+fp)
fpr=fp/float(fp+tn)
#发现tpr的值仍然不高，但是也得到了较好的改善

#由于模型的权重参数是可调的，我们将0这类和1这类的样本权重调为10：1，通过字典的方式
a={0：10，1：1}
lr=LogisticRegression(class_weight=a)#通过参数调整权重，1和0的样本数量差不多
kf=KFold(features.shape[0],random_state=1)
predictions=cross_val_predict(lr,features,target,cv=kf)
predictions=pd.Series(predictions)
predictions
#算出混淆矩阵
fp_filter=(predictions==1)&(loans["loan_status"]==0)
fp=len(predictions[fp_filter])
fn_filter=(predictions==0)&(loans["loan_status"]==1)
fn=len(predictions[fn_filter])
tp_filter=(predictions==1)&(loans["loan_status"]==1)
tp=len(predictions[tp_filter])
tn_filter=(predictions==0)&(loans["loan_status"]==0)
tn=len(predictions[tn_filter])
#比率
tpr=tp/float(tp+fp)
fpr=fp/float(fp+tn)
#发现权重项对结果的影响很大，但是结果仍然不理想

#也可以用随机森林的模型尝试
from sklearn.linear_model import RandomForestClassifier
from sklearn.model_selection import KFold,cross_val_predict
penalties={0：10，1：1}
rf=RandomForestClassifier(class_weight=penalties,random_state=1)#通过参数调整权重，1和0的样本数量差不多
kf=KFold(features.shape[0],random_state=1)
predictions=cross_val_predict(lr,features,target,cv=kf)
predictions=pd.Series(predictions)
predictions
#算出混淆矩阵
fp_filter=(predictions==1)&(loans["loan_status"]==0)
fp=len(predictions[fp_filter])
fn_filter=(predictions==0)&(loans["loan_status"]==1)
fn=len(predictions[fn_filter])
tp_filter=(predictions==1)&(loans["loan_status"]==1)
tp=len(predictions[tp_filter])
tn_filter=(predictions==0)&(loans["loan_status"]==0)
tn=len(predictions[tn_filter])
#比率
tpr=tp/float(tp+fp)
fpr=fp/float(fp+tn)
#多使用其他的模型或者调整参数来让结果变得满意

rong_king_

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
python--银行反欺诈模型--建立模型和模型检验

from sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import train_test_split,KFold,cross_val_predictloans=pd.read_csv("cleaned_loans2007.csv")lr=LogisticRegression()cols...
复制链接

扫一扫