![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘项目
AvenueCyy
这个作者很懒,什么都没留下…
展开
-
数据挖掘项目:问答网站问题及回答数量预测(Sofa竞赛)排名:3/155
本文是对Sofa数据竞赛上的练习项目:问答网站问题及回答数量预测进行结果展示。主要是根据日期这一唯一的特征,预测某问答网站每天新增的问题数和回答数。最终排名3/155。1.背景介绍给出美国某大型问答社区从2010年10月1日到2016年11月30日,每天新增的问题的个数和回答的个数。任务是预测2016年12月1日到2017年5月1日,该问答网站每天新增的问题数和回答数。在本练习赛中,日期是唯一的特征。2.导入包和数据2.1导入必要的包import pandas as pdimport numpy原创 2020-06-21 20:39:08 · 833 阅读 · 4 评论 -
数据挖掘项目:银行信用评分卡建模分析(上篇)
本文主要通过kaggle上Give me some credit数据进行数据分析,并根据信用评分建立原理,构建一个简易的信用评分卡模型——申请评分卡(A卡),并可以对用户自动评分。该项目是一个8年前的老项目,网上的分析说明有很多,但本人通过阅读后,也发现了很多的问题,最大的就是异常值的处理问题。比如通常月薪都是用随机森林直接进行处理,但处理后的结果并不是很理想,比如零点几的月薪。虽然后续的分箱...原创 2020-04-13 23:50:59 · 9566 阅读 · 55 评论 -
数据挖掘项目:银行信用评分卡建模分析(下篇)
以下是银行信用评分卡建模分析下篇的内容,包括特征工程,构建模型,模型评估,评分卡建立这四部分。其中如果有一些地方分析的不正确,希望大家多多指正,感谢!上篇文章的链接:数据挖掘项目:银行信用评分卡建模分析(上篇)4.特征工程特征处理和特征生成特征衍生构建三个新的特征:总违约数,违约计数和每个月的支出。def get_more_features(data): data['AllNu...原创 2020-04-13 23:49:37 · 3702 阅读 · 0 评论