用户贷款风险预测-datacastle竞赛题目

本文是作者参与datacastle竞赛的初步尝试,使用Logistic Regression进行用户贷款风险预测,目前成绩在100名左右。计划通过特征工程、集成模型如RF和GBDT,以及深入研究特征来提升预测效果。
摘要由CSDN通过智能技术生成

##菜鸟一枚,datacastle比赛题目,用的是Logistic,做出的结果不好,目前只排在100名左右。先放在博客上面,项目比较紧张,就怕以后没时间做了。。。。
后续思路:
(1)特征工程(特征筛选,融合等)
(2)堆模型,考虑RF,GBDT等,也可以使用堆叠神经网络
(3)还是要对特征做一些研究

# -*- coding: utf-8 -*-
"""
Created on Tue Jan 10 09:54:12 2017
###Datacastle的‘用户贷款风险预测’竞赛题目###
#初步想法是利用逻辑斯蒂回归,特征的选择对结果影响很大,有时间的话多看看特征选择方面的东西
"""
import pandas as pd
from sklearn import preprocessing
from sklearn.cross_validation import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

class DataCastle(object):
    def __init__(self):
        self.name = "<<- User loan forecast match ->>"
        self.result = "result.csv"
        
    #读取用户信息表 并返回
    def readUserInfo(self):
        user_info_train = readData("train/user_info_train.txt")
        user_info_test = readData("test/user_info_test.txt")
        col_names = ['userid', 'sex', 'occupation', 'education', 'marriage', 'household']
        user_info_train.columns = col_names
        user_info_test.columns = col_names
        user_info = pd.concat([user_info_train, user_info_test])
        user_info.index = user_info['userid']
        user_info.drop('userid',axis=1,inplace=True)
        return user_info
    
    #读取用户银行账单表 对账单数据求和并返回
    def readBankDetail(self):
        bank_detail_train = readData("train/bank_detail_train.txt")
        bank_detail_test = readData("test/bank_detail_test.txt")
        col_names = ['userid', 'time_bank',<
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值