数据挖掘竞赛
文章平均质量分 75
马飞飞
乐于分享,痴迷技术
展开
-
数据预处理方式(去均值、归一化、PCA降维)
一.去均值1.各维度都减对应维度的均值,使得输入数据各个维度都中心化为0,进行去均值的原因是因为如果不去均值的话会容易拟合。 这是因为如果在神经网络中,特征值x比较大的时候,会导致W*x+b的结果也会很大,这样进行激活函数(如relu)输出时,会导致对应位置数值变化量太小,进行反向传播时因为要使用这里的梯度进行计算,所以会导致梯度消散问题,导致参数改变量很小,也就会易于拟合,效果不好。...原创 2018-08-31 10:34:38 · 48711 阅读 · 10 评论 -
kdd cup 2019赛题Context-Aware Multi-Modal Transportation Recommendation解读
赛题地址https://dianshi.baidu.com/competition/29/question竞赛目的根据用户以往点击情况和路线推荐 对用户的行走方式选择进行预测,这里区分好sid和pid(sid是session会话的意思,表示一次导航过程 ,pid表示的是一个人),pid是直接关联于属性的,sid是关联于一次导航任务。 是根据query表、plans表、profil...原创 2019-04-14 22:00:02 · 2414 阅读 · 6 评论 -
澳新银行数据科学竞赛第四名方案
简介赛题链接:http://www.pkbigdata.com/common/cmpt/ANZ%20Chengdu%20Data%20Science%20Competition_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html?lang=en_US本次比赛排名为:4/299 (因为纯英文答辩和提交,所以参加人较少)队伍名:没事有我在开源github...原创 2018-11-25 21:45:58 · 494 阅读 · 0 评论 -
安装xgboost遇错xgboost.libpath.XGBoostLibraryNotFound: Cannot find XGBoost Library in the candidate path
问题安装好xgboost,但是在跑程序时遇到如下的报错情况解决方案1.在链接http://www.picnet.com.au/blogs/guido/2016/09/22/xgboost-windows-x64-binaries-for-download/中下载最新版本的xgboost.dll.2.根据提示将下载的xgboost.dll放置到C:\Users\Adminis...原创 2018-10-16 11:35:54 · 8127 阅读 · 6 评论 -
实验绘图-用XGboost绘制梯度提升决策树
看到别人论文里面有这样的实现效果,觉得挺高大上的,后来找了一些文章,终于找到了绘制方法。绘制方案绘制单个决策树可以提供对给定数据集的梯度提升过程的洞察,帮助理解里面的原理过程。现在举例XGboost模型绘制梯度提升树的方法。在xgboost库中提供了专门的方法 plot_tree() 用来绘制梯度提升树,在绘制树时将训练好的模型作为方法的第一个参数。plot_tree(mod...原创 2018-09-07 16:22:02 · 2795 阅读 · 3 评论 -
数据挖掘竞赛的基本步骤
基本步骤: *数据分析和可视化 (10%时间) *异常值和波动值处理,数据采样(也需要尝试方法的效果) *feature工程是不断尝试的过程,最后自己能不能到 榜单主要靠的是特征,尝试各种特征,有些特征是起反效果的,要出去掉,之外就是加特征,各种加和各种尝试,在预处理数据之后,对数据特征的不断不断尝试(尝试特征效果) (%40时间, 最后能不能占据...原创 2018-08-30 12:51:36 · 2905 阅读 · 1 评论 -
数据科学家之路 - 个人学习历程和入门规划
本文分为两部分:第一部分介绍我学习的过程,第二部分介绍对新人的指导规划个人反思总览下我的学习过程,我的学习过程分为一些几个阶段: (1)2017年7月以前 : 没有来学校之前,意识到自己以后开始由java转python,所以花了20天左右的时间,每天三个小时学习python语言,主要看的是小甲鱼的python视频,看了50集视频,外加做了15课的作业 ...原创 2018-10-16 19:58:48 · 588 阅读 · 0 评论 -
kaggle竞赛 - Home Credit Default Risk金牌心得
转自:知乎 https://zhuanlan.zhihu.com/p/43323121正文最优单模已在kaggle分享,本地CV为7993,线上最终的私榜成绩为7996,我们最终融合的成绩为8012,欢迎大家帮我在kaggle点赞。https://www.kaggle.com/xucheng/cv-7993-private-score-7996/刚刚结束了kaggle竞赛Home Cr...原创 2018-09-01 09:52:34 · 8055 阅读 · 5 评论 -
比较牛的竞赛总结和竞赛博客
学习历史赛题和大佬们的总结,是不错的升华之路。1. 一个master的主页:https://lxmly.github.io/archives/ (数据分布、数据特点、后处理上,还差的多得多,不是简单的套路, 对数据的异常现象保持敏感)2.砍手豪的一些非常好的文章,大佬真的是在不断分析过往赛题,积攒经验和思考:https://www.zhihu.com/people/kan-sh...原创 2019-07-19 14:03:56 · 290 阅读 · 0 评论