自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (1)
  • 收藏
  • 关注

原创 模型融合

一、Stackingstacking 将若干基学习器获得的预测结果,将预测结果作为新的训练集来训练一个学习器。如下图 假设有五个基学习器,(注,这里的5个基学习器已经训练好) , 将原始数据(设特征维度N)输入到五基学习器中,并得到预测结果输入到模型六中。注意:由下面图可以看出,模型六的输入是5个基模型的预测结果stackIng。也即,模型六的输入特征维度为5。 N理论应该大于5. 这里类似于CNN的迁移学习过程,固定已训练好模型的的特征提取网络参数,然后训练最后的全连接层(Linear)。这里,这种

2020-09-27 22:58:13 401

转载 LightGBM

今天在学习的时候由Datawhale 推荐一篇LightGBM的模型介绍博客写得非常棒。加之我今天的笔记也没有更好的内容来记录,所以就索性转载一波优秀的博客!!声明: 本文内容转载自白话机器学习算法理论+实战番外篇之LightGBMLightGBM, 2017年由微软提出,是GBDT模型的另一个进化版本, 主要用于解决GBDT在海量数据中遇到的问题,以便更好更快的用于工业实践中。从 LightGBM 名字我们可以看出其是轻量级(Light)的梯度提升机器(GBM), 所以面对大规模数据集,它依然非常淡定

2020-09-25 22:04:37 265

翻译 金融风控_03_特征工程

Datawhalechina-team-learning-data-mining本文摘录自特征工程,是机器学习,甚至是深度学习中最为重要的一部分,在实际应用中往往也是所花费时间最多的一步,所以无论如何要深入理解和学习。特征工程涉及到下面的内容:1、数据预处理 1.1 缺失值的填充 -->用0,即特征对于结果没有作用。 -->特征前(后)面的值替换, 利用特征的已出现的值进行替换,而不是一个毫无意义的值。 1.2 时间格式处理 1.2.1 把 1

2020-09-21 23:01:43 111

原创 金融风控_02_数据分析

第二天打卡:关于pd.read_csv(root_dir, nrows =5, chunk_size = 5 )#设置chunksize参数,来控制每次迭代数据的大小chunker = pd.read_csv("./train.csv",chunksize=5)for item in chunker: print(type(item)) #<class 'pandas.core.frame.DataFrame'> print(len(item))这里关于nro

2020-09-18 19:13:46 151

原创 金融风控--task01_赛题理解

Oh My God, 这是第4次参加Datawhale 组织的开源学习了,很感激。组织二维码如下,如果有兴趣的朋友可以添加关注公众号!这一次打以这种比赛的方式进行学习,很期待!话不多说,进入主题!!!!1、赛题数据理解。1.1 要求,以个人信贷为背景,根据背景信息预测其是否有违约的可能。典型的分类任务,且输出违约的可能性。1.2 评价标准:提交结果为每个样本是1的概率。评价方法为AUC评估(越大越好)。AUC(Area Under Curve) AUC(Area Under Curve)被

2020-09-15 12:18:40 310

Dataset_List_Overview.xlsx

汇总了目前开源的训练模型的数据集链接,直接点击链接即可下载,不用到处查找,一个文档包含了所有!喜欢的请帮忙点赞!

2020-04-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除