tenflow数据集_分享一波关于做Kaggle比赛,Jdata,天池的经验,看完我这篇就够了。...

@Author : Jasperyang

@School : BUPT

这篇文章同时在知乎里放着~

写在前面

Kaggle的数据挖掘比赛近年来很火,以至于中国兴起了很多很多类似的比赛,做了两个这种类型的比赛了,Jdata用户商品购买预测和用户位置精准预测,积累了相当多的比赛经验了,虽然两次成绩都不是特别好,59/4590 和 179/2844 。这些比赛的套路从根本上都是一毛一样的,我下面可以和大家探讨一个大致的做题套路以及怎么往高分走的方向,但是总结来说这就是个拼体力的任务,和智力无关。(虽然锻炼了动手能力,极大强化了我在sklearn和pandas上的技能熟练度...)

PART 1 : 怎么开始

首先是看题目,是个什么样类型的预测?回归?二分类?多分类?

每种类型的预测会有一点点不同,个人觉得西瓜书还是需要快速看一遍的,不一定说每个公式都要仔仔细细去推导(推导公式对你做比赛基本没有什么帮助),你要知道什么是监督,半监督,非监督等等。

关于多分类我有个入门blog,可以快速浏览一遍

然后就是繁复的特征工程了

一般这种比赛都有个这么样的流程:

6625119b8e9865e45639e5ed711558fb.png

最重要的是在特征工程上,基本你会花上60%的时间在这里,因为在这里你需要做的是数据清洗,异常处理,变换,构造新特征等等,这一套有很详细的教程,给大家贴两个传送门(先别急着看)

看完这两篇后,基本你就能做到得心应手地处理数据。

但是,其实在做特征工程之前,你应该先去了解数据,怎么去了解数据呢?这就需要你熟练掌握pandas这个工具了,提到怎么熟悉这个工具,我想offer你下面这个学习流程。

安装anaconda,这个很简单,网上一搜就有(这个科学研究工具包含了基本所有你需要的,jupyter,pandas,numpy等等)当然你要做深度学习就需要tensorflow,pytorch之类的还得另外装。

由于后面我们需要用到xgboost这款神器当模型,所以最好你的系统是ubuntu,因为在ubuntu中安装xgboost只需要pip install就行,在别的系统装起来可能你会想打人。

ok,有了环境,就用anaconda/bin/jupyter 来运行一个jupyter工作环境吧,在这个环境里你可以随心所欲为所欲为所欲为...(主要就是因为jupyter可以保存你之前执行的结果,很方便做实验,详细的你可以google)

学习pandas很简单,因为它就是像数据库对表操作一样。初学直接就看看官网的教程:10 min to learn,之后你要merge,con

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值