数据挖掘入门
ccChantal
这个作者很懒,什么都没留下…
展开
-
零基础入门金融风控 Task4 建模调参
转载 2020-09-24 23:17:09 · 77 阅读 · 0 评论 -
零基础入门金融风控 Task3 特征工程
3.1 内容介绍3.2 数据预处理在处理数据后总会不可避免的遇到数据缺失。在这里我们先学习数据缺失值的填充,时间格式特征的转化处理,某些对象类别特征的处理。3.2.1查找缺失值工作查找对象特征和数据特征:numerical_fea = list(data_train.select_dtypes(exclude=['object']).columns)category_fea = list(filter(lambda x: x not in numerical_fea,list(data_tra原创 2020-09-21 22:40:19 · 151 阅读 · 0 评论 -
零基础入门金融风控 Task2 数据分析
2.1 学习目标学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值,异常值)学习了解变量间的相互关系、变量与预测值之间的存在关系2.2 内容介绍2.3 代码示例2.3.1 导入数据分析及可视化过程需要的库import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimeimport warningswarnings.filterw转载 2020-09-19 11:56:58 · 228 阅读 · 0 评论 -
datawhale金融风控day1:赛题理解
1.2.1赛题概况比赛要求参赛选手根据给定的数据集,建立模型,预测金融风险。赛题以预测金融风险为任务,数据集报名后可见到下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时同步就业标题,目的,邮政编码和标题等信息进行脱敏。通过这道赛题来引导大家进入金融风控数据竞赛的世界,主要针对于于竞赛新人进行自我练习,自我提高。1.2.2 数据概况一般而言,对于数据在比赛界原创 2020-09-15 23:38:20 · 263 阅读 · 0 评论 -
datawhale零基础数据挖掘入门task4
模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合stacking/blending:构建多层模型,并利用预测结果再拟合预测。boosting/bagging(在xg...原创 2020-04-04 21:21:55 · 146 阅读 · 0 评论 -
datawhale零基础数据挖掘入门Task3学习笔记
线性回归模型:线性回归对于特征的要求;处理长尾分布;理解线性回归模型;模型性能验证:评价函数与目标函数;交叉验证方法;留一验证方法;针对时间序列问题的验证;绘制学习率曲线;绘制验证曲线;嵌入式特征选择:Lasso回归;Ridge回归;决策树;模型对比:常用线性模型;常用非线性模型;模型调参:贪心调参方法;网格调参方法;贝叶斯调参方法;...原创 2020-04-01 20:49:25 · 146 阅读 · 0 评论 -
datawhale零基础数据挖掘入门Task2学习笔记
常见的特征工程包括:异常处理:通过箱线图(或 3-Sigma)分析删除异常值;BOX-COX 转换(处理有偏分布);长尾截断;特征归一化/标准化:标准化(转换为标准正态分布);归一化(抓换到 [0,1] 区间);针对幂律分布,可以采用公式:????????????(1+????1+????????????????????????)数据分桶:等频分桶;等距分桶;Best-KS分桶(类似利用基尼指数进行二分类);卡方分桶;...原创 2020-03-28 19:47:34 · 164 阅读 · 0 评论 -
datawhale零基础数据挖掘入门Task1学习笔记
目录1.载入各种数据科学以及可视化库2.载入数据3. 总览数据概况4.判断数据缺失和异常5.了解预测值的分布6. 特征分为类别特征和数字特征,并对类别特征查看unique分布7. 数字特征分析1.载入各种数据科学以及可视化库2.载入数据3. 总览数据概况4.判断数据缺失和异常5.了解预测值的分布6. 特征分为类别特征和数字特征,并对类别特征查看unique分布7. 数字特征分析原创 2020-03-24 19:31:10 · 419 阅读 · 0 评论