天池比赛（-贷款违约预测）2--数据探索性分析

最新推荐文章于 2020-12-09 23:41:47 发布

haidizym

最新推荐文章于 2020-12-09 23:41:47 发布

阅读量276

点赞数

文章标签：数据挖掘

本文链接：https://blog.csdn.net/haidizym/article/details/108672459

版权

读取数据
data_train = pd.read_csv(’./train.csv’)
data_test_a = pd.read_csv(’./testA.csv’)
生成数据分析报告：
import pandas_profiling
pfr = pandas_profiling.ProfileReport(data_train)
pfr.to_file("./example.html")

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

haidizym

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

阿里天池学习赛-金融风控-贷款违约预测

weixin_40139561的博客

09-15

5642

阿里天池学习赛-金融风控-贷款违约预测1 赛题理解1.1 赛题数据1.2 评测标准2 探索性分析（EDA） 1 赛题理解项目地址： https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl 比赛地址： https://tianchi.aliyun.com/competition/entrance/531830/introduction 1.1 赛题数据赛题以预测金融风险为任务，

【天池】金融风控-贷款违约预测（二）—— 数据分析

u011961803的博客

09-18

1736

【天池】金融风控-贷款违约预测（二）—— 数据分析前言内容介绍代码示例总结前言【天池】金融风控-贷款违约预测（赛题链接）。上一篇赛题理解时已经对赛题背景、数据字段等进行了介绍。本篇是数据分析部分，进一步了解数据，熟悉数据，为后续的特征工程做准备。一般的数据探索（EDA，Exploratory Data Analysis）目的如下： 1、EDA价值主要在于熟悉了解整个数据集的基本情况（缺失值，异常值），对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模； 2、了解变量间的相互关系、变量与预测

1 条评论您还未登录，请先登录后发表或查看评论

贷款违约预测竞赛训练数据-Kaggle竞赛

04-09

https://www.kaggle.com/c/loan-default-prediction

特征工程——天池学习赛之贷款违约预测

xylbill97的博客

09-21

391

文章目录一、对象特征数据预处理二、类别特征数据预处理三、缺失值和异常值处理四、时间格式处理五、特征构造一、对象特征数据预处理区分对象特征和数值特征 category_feat = list(data_df.select_dtypes(include=['object']).columns) # 对象特征 numerical_feat = list(data_df.select_dtypes(exclude=['object']).columns) # 数值特征 label = 'isDefault'

天池-金融风控-贷款违约预测-特征工程

weixin_44122249的博客

09-21

264

先列个大纲数据预处理缺失值时间格式字符型转换为数值型异常值处理基于3个标准差原则基于箱型图数据分箱固定宽度分箱分位数分箱特征挖掘特征组合特征衍生特征编码 one-hot编码 label-encode编码特征选择 Filter Wrapper （RFE） Embedded ...

天池-贷款违约挑战赛（四）-建模与调参

日月既往，不可复追

09-24

595

目录学习目标学习内容1. 逻辑回归2. 决策树模型3. 集成模型3.1 GBDT模型3.2 XGBoost模型3.3 LightGBM模型3.4 Catboost模型学习目标扫盲常用机器学习模型学习机器学习模型的建模过程与调参流程学习内容逻辑回归模型树模型集成模型模型对比与性能评估模型调参下面进入正题，由于是扫盲，内容会比较简单，随着以后的学习会不断记录有深度的机器学习内容 1. 逻辑回归关于逻辑回归的数学推导，可以看一下大佬的这篇博客，讲的很详细 https://bl

天池-贷款违约挑战赛（二）-数据分析

日月既往，不可复追

09-18

849

目录Task2-数据分析主要内容程序示例使用平台导入包读数据样本数量&特征数量数据完整性（缺失值nan）数据类型（离散/连续） Task2-数据分析 主要内容了解数据集的统计信息，如数据完整性、是否存在奇异数据、数据类型（离散/连续）、特征关联程序示例使用平台使用google colab，这个平台需要科学上网，你懂的。本次比赛提供本地数据集，在colab中导入本地数据集的传送门在此链接: 【嗖！传送门】. 导入包 import pandas as pd import numpy as n

天池学习赛之贷款违约预测

m0_49007293的博客

12-09

3625

一、写在前面的话这是我的第一篇博客，希望写好。我几乎是一个编程小白，只有一点点C和Java的经验，一路懵头懵脑的成为了一名经济学渣硕（真的是渣）。研一下学期开了一门《数据挖掘与分析》的课，虽然我也不知道经济学为什么会开这种课，也许是因为学院顶了一个“大数据”的高大上（假大空）头衔，无论怎样，我与机器学习的缘分从此结下。之后开启了一路踩坑的自学之旅，到了今天总算能自己独立写出一个数据挖掘的流程了，虽然很烂，但我相信以后会更好。。。二、赛题介绍本次比赛是天池的学习赛，赛题为预测用户贷款是否违约，是一个典型

【天池】金融风控-贷款违约预测（三）—— 特征工程

u011961803的博客

09-21

1767

【天池】金融风控-贷款违约预测（二）—— 特征工程前言内容介绍代码示例前言【天池】金融风控-贷款违约预测（赛题链接）。上一篇数据分析时已经对赛题进行了数据探索（EDA，Exploratory Data Analysis），主要熟悉了解整个数据集的基本情况（缺失值，异常值），了解了变量间的相互关系、变量与预测值之间的存在关系。本篇将进行各种特征工程以及分析方法的介绍：特征预处理、缺失值、异常值处理、数据分桶等特征处理方法；特征交互、编码、选择的相应方法。内容介绍数据预处理： a. 缺失值的

阿里云天池学习赛【金融风控-贷款违约预测】task 2

weixin_41598761的博客

09-18

712

零基础入门金融风控-贷款违约预测TASK 22.探索性数据分析（EDA）二级目录 2.探索性数据分析（EDA）了解数据，熟悉数据，为后续的特征工程做准备。 探索性数据分析（Exploratory Data Analysis，简称EDA），是指一种分析数据集以概括其主要特征的方法，通常使用可视化方法。为之后的数据预处理和特征工程提供必要的结论。目的： 1.EDA价值主要在于熟悉了解整个数据集的基本情况（缺失值，异常值），对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模； 2.了解变量间的

基于LightGBM的网络贷款违约预测模型

11-28

基于LightGBM的网络贷款违约预测模型，人工智能预测违约

天池比赛——零基础入门金融风控-贷款违约预测Task1:赛题理解

weixin_43301701的博客

09-15

680

项目链接：https://tianchi.aliyun.com/competition/entrance/531830/information 一、赛题数据赛题以预测用户贷款是否违约为任务，数据集报名后可见并可下载，该数据来自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。80万条作为训练集，20万条作为测试集A，20万条作为测试集B，同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。信息脱敏：指的是对某些敏感（通常

Datawhale 金融风控-贷款违约预测: 赛题理解

space_dandy的博客

09-15

292

比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction 1. 赛题概述赛题以预测金融风险为任务。该数据来自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取80万条作为训练集，20万条作为测试集A，20万条作为测试集B，同对一些特征进行了脱敏处理。比赛目标为比赛要求参赛选手根据给定的数据集，建立模型，预测金融风险。 2.赛题数据主要.

天池学习赛——金融风控-贷款违约预测(01)

weixin_46541529的博客

09-15

583

天池学习赛——金融风控-贷款违约预测(01) 本次天池学习赛的主题是关于金融风控领域，比赛主要任务为预测用户贷款是否违约，数据集来自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。变量名如下所示。变量名称： Field Description id 为贷款清单分配的唯一信用证标识 loanAmnt 贷款金额 term 贷款期限（year） interestRate 贷款利率 installment 分期付款金额 grade 贷款等级

DataWhale_天池_零基础入门金融风控_贷款违约预测_Task2_数据分析

baidu_36184635的博客

09-18

822

队伍： NULL 阿里天池比赛地址：零基础入门金融风控-贷款违约预测 DataWhale组队学习地址：九月组队学习一、赛题背景本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第四场 —— 零基础入门金融风控-贷款违约预测。赛题以金融风控中的个人信贷为背景，要求选手根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过此项贷款，这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景，解决实际问题，帮助竞赛新人进行自我练习、自我提高。为了更好的引导大家入

天池金融风控-贷款违约预测新人赛之建模调参

weixin_43885256的博客

09-24

677

在完成第三部分的特征工程之后，我们认为我们已经获得了想要的并且标准的数据，接下来就可以将数据放到合适的模型算法之中来训练模型，通过调整模型的参数来使得模型更健壮，这一部分主要做的就是建模及调整参数。这一部分的学习分为两个部分，一个是金融风控常用的机器学习模型的学习，第二个是这些模型的实际应用与调参。 1.机器学习算法的学习 1.1Logistic回归逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法，运用梯度下降来求解参数，来达到将数据二分类的目的。这一部分我们通过以下五个点来了解这个算法，分别

【天池】金融风控-贷款违约预测（一）——赛题理解

u011961803的博客

09-15

1850

【天池】金融风控-贷款违约预测（一）——赛题理解赛题介绍赛题理解读取数据赛题介绍【天池】金融风控-贷款违约预测（赛题链接）赛题背景金融风控-贷款违约预测，赛题以金融风控中的个人信贷为背景，要求选手根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过此项贷款，这是一个典型的分类问题。数据介绍赛题以预测用户贷款是否违约为任务，该数据来自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取80万条作为训练集，20万条作为测

天池比赛（-贷款违约预测）1--赛题理解

haidizym的博客

09-15

879

赛题以预测用户贷款是否违约为任务，数据集报名后可见并可下载，该数据来自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取80万条作为训练集，20万条作为测试集A，20万条作为测试集B，同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。字段表 Field Description id 为贷款清单分配的唯一信用证标识 loanAmnt 贷款金额 term 贷款期限（year） interes

天池数据--幸福感数据分析（一）

yili_sha11的博客

08-22

6552

一、题目解析训练集是幸福度的调查数据，涵盖调查人员各维度指标，调查结果幸福度分为5级。对测试集的样本进行幸福度分级预测。数据精度评估标准：二、数据分析处理 1、数据导入 #导入库 import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.utils import shu...

天池-零基础入门数据挖掘-心跳信号分类预测-eda分析全过程-代码