自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 广东工业大学 金融风控 task6

学习总结从这次的金融风控比赛中,我学到了很多关于数据处理的问题,如查看特征的数值类型有哪些,对象类型有哪些?特征预处理(缺失值、异常值)、数据分桶、特征选择等等对于我学习大数据的方法加强了,让我对于大数据的理解更为深刻,我也在学习期间,学到了很多新的代码和新的处理方式,期待下一次的大数据开源学习,我认为开源学习是十分必要的,也是重要的一种精神,互相分享,互相提高,可以让我们在学习方面更上一层。...

2021-05-05 13:37:11 84

原创 广东工业大学 金融风控 task5

一、学习概要1、模型融合2、stacking和blending3、经验总结二、学习内容1、模型融合有以下方法平均: 简单平均法 加权平均法 投票: 简单投票法 加权投票法 综合: 排序融合 log融合 2、stacking和blendingstacking: import warnings warnings.filterwarnings('ignore') import itertools import numpy a..

2021-05-04 15:29:21 79

原创 广东工业大学 金融风控 task4

一、学习概要1、模型2、模型评估方法3、建模调参二、学习内容模型1、逻辑回归模型(逻辑回归模型,要对缺失值和异常值预先处理) 优点 训练速度较快,分类的时候,计算量仅仅只和特征的数目相关; 简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响; 适合二分类问题,不需要缩放输入特征; 内存资源占用小,只需要存储各个维度的特征值; 缺点 不能用Logistic回归去解决非线性问题,因为Logistic的决策面是线性的; 对多

2021-05-01 21:46:07 87

原创 广东工业大学 金融风控 task 3

学习知识点概要一、特征预处理二、数据分桶三、特征交互四、特征编码五、特征选择学习内容一、特征预处理1、缺失值处理数据EDA部分我们已经对数据的大概和某些特征分布有了了解,而这组数据有缺失值,也有异常值,所以我们要进行预处理,首先我们查找出数据中的对象特征和数值特征[4]:numerical_fea = list(data_train.select_dtypes(exclude=['object']).columns)category_fea = ..

2021-04-28 15:55:38 97

原创 广东工业大学 金融风控(2)

一、学习知识点概要1、数据分析2、查看特征的数值类型有哪些,对象类型有哪些3、单一数据可视化二、学习内容数据分析第一步导入数据分析及可视化会用到的库import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimeimport warningswarnings.filterwarnings('ignore')输入代码查.

2021-04-25 16:50:58 153

原创 广东工业大学 金融风控训练营

TASK 1 赛题理解摘要:赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等

2021-04-22 14:27:12 214

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除