- 博客(5)
- 收藏
- 关注
原创 天池金融风控赛笔记-Day1
天池金融风控赛笔记-Day1 赛题理解 赛题:以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款。 数据解释:该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。其中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。 小组一起整理的字段解释: 比赛评价标准:AUC AUC python代
2020-09-15 21:30:40 144
原创 时序学习预测赛-读书笔记3
时序预测赛-读书笔记3 Day 5&6 建模预测&总结 时序建模与其他类型数据建模的差别 一、training set, testing set, validation set的划分(滑窗划分法) 与其他结构型数据采取随机shuffle后切割原始数据集,或者考虑样本分布(targets分布)shuffle后划分原始数据集不同,时序数据由于其连续性,如果随机shuffle后切割会破坏时序特征。 因此,时间序列数据需要通过滑窗的方法进行划分训练集、测试集和验证集。具体划分方法如下:
2020-08-25 16:12:09 394
原创 时序学习预测赛-读书笔记2
时序预测赛-读书笔记2 Day 3 时序规则 时间序列规则法 本次时间序列规则法(按周提取周期因子)的步骤: 截取近半年的数据作为提取规则的时段period total_balance = df.copy() total_balance = total_balance[['date', 'total_purchase_amt', 'total_redeem_amt']] total_balance = total_balance[(total_balance['date'] >=
2020-08-22 22:57:22 170
原创 时序预测赛-学习笔记
DAY 1 时序预测赛学习笔记 比赛描述 数据概览 本次比赛数据为蚂蚁金服旗下产品的真实脱敏数据, 包括4个表: 用户基本信息数据 用户申购赎回数据 收益率表 银行间拆借利率表 其中,主表为用户申购赎回数据表,字段内容如下: 描述性信息如下: 时序学习 本次需要预测的时间序列为二元时间序列,输出预测结果为预测的purchase和redeem数值。 昨天和今天,主要对数据做描述性时序分析,探索数据的特征,准备特征工程。 描述性时序分析 描述性时序分析工作主要分为以下几点: 一、总体时间序
2020-08-20 22:39:34 376
原创 二分查找算法图解
今天刚好学习了二分查找算法,记录一下防止忘记。 搜索算法就是在一个项目集合中找出一个或一组具有某种特点的项目。我们将项目集合称为 搜索空间。它可以很具体,比如一组电子病历;也可以很抽象,比如所有整数的集合。在实际工 作中,大量问题都可以转换为搜索问题。 如果我们对列表中元素的排序顺序一无所知,时间复杂度为O(len(L))是我们能做到的最好的情况。 因此二分查找必须保证元素有序排列,否则很有...
2018-11-22 18:29:07 309
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人