大数据实训
记录基于数据酷客的一个大数据项目
Tianweidadada
一颗执着的心,一个平庸的梦。
展开
-
四、大数据实践——模型预测及分析
一、风险评估模型的效果评价方法二、利用AUC评估逻辑回归模型的准确性#用metrics.roc_curve()求出 fpr, tpr, thresholdfpr, tpr, threshold = metrics.roc_curve(y_test,y_predict_best)#用metrics.auc求出roc_auc的值roc_auc = metrics...原创 2019-04-03 00:11:34 · 10009 阅读 · 1 评论 -
二、大数据实践项目——数据分析与处理
一、数据处理主要任务二、数据集处理1、查看数据集基本情况调用 info() 函数来查看数据data的基本情况,包括数据维度,字段名称和类型以及有无缺失值,数据占用内存等。(以下为部分字段信息)可见总的数据47447行,少于此数值的为有数据缺失。2、查看数据基本统计信息data_des = data.describe(include='all')可以从基...原创 2019-03-27 22:39:41 · 11971 阅读 · 3 评论 -
三、大数据实践——构建新特征指标与构建风控模型
一、建立新的信用指标评估体系二、计算新的指标值1、以年消费总额这个新指标为例年消费总额 = transCnt_mean * transAmt_mean把计算结果作为新特征,加入作为新列加入data# 计算客户年消费总额。trans_total = data['transCnt_mean']*data['transAmt_mean']# 将计算结果保留到小数点后六位。...原创 2019-03-29 22:21:53 · 7417 阅读 · 0 评论 -
一、大数据实践项目——数据集描述
1、数据集来源2、数据集字段信息3、数据获取与转换(1)默认数据保存在Mysql里面,所有数据取出后保存在all_data里面import pymysqlconnection = pymysql.connect("172.17.6.26","raa_user","bigdata123","risk_assessment_analysis",charset="...原创 2019-03-27 22:10:50 · 6373 阅读 · 1 评论