Kaggle数据挖掘入门之KNN算法--Didit Recognizer

由于本人也是在数据挖掘的入门阶段,以下内容仅为个人练习经验和见解,如有不恰当之处,希望能与其他人探讨。

在开始之前先说说要准备或者说要具备的知识:

1、学习过python,不需要什么精通,起码要知道python的基本数据结构和大的框架;

2、了解KNN(K最近邻)算法的基本原理,这里我就不多说了,百度一下就能找到,因为我觉得自己没别人解释的好;

3、对数据挖掘有概念性的了解,起码要知道数据挖掘是要做什么。


给点干货,这里有比较详细的KNN算法的python简单实现,很容易理解:http://blog.csdn.net/zouxy09/article/details/16955347


接下来开始我们的入门练习。

1、获取资源

首先,当然是要先去kaggle上获取相关的资源了,点击这里就能进去kaggle,然后自然就是要先注册了。在这里和大家说一下,注册时如果你能翻墙的话当然是没有什么问题,如果不能翻墙的话,就先注册一个yahoo邮箱,再用yahoo在kaggle上面注册就没问题了,否则邮箱验证的时候验证码窗口弹不出来会导致无法验证。

注册成功登陆之后,拿着你的鼠标使劲往下拉吧,上面的项目都是大牛级别参加的有偿的竞赛,我们要做的练习在下面的‘101’标签部分的‘Didit  Recognizer’,这一部分都是供入门练习使用的,其中也有不少个人和team贡献出的源代可供研究。ok,我们要找的就是下面这个。



点击打开之后呢,主要有三个部分,Competition Details、Get the Data、Make a submission,Competition Details这一部分尤为重要,要仔细读这一部分的内容,这里主要对项目做了详细的描述,以及项目的具体需求。


接下来需要得到我们所需的数据,即在Get the Data下面可以找到,可得到的数据有两个,一个是train(训练集),一个事test(测试集),且均为csv文件(逗号分隔符文件),csv也是一种通用的数据文件格式,类似于jason和xml。同样,下面的描述需要仔细阅读,是关于提供的数据的基本信息和提交结果数据的格式。我在做时就没有注意到提交结果数据的格式,导致倒腾了半天。原谅我的英文水平!



2、开始练习

下载下来的数据,可以自行打开看看数据的具体形式。train数据集大小是42001*785,其中包含顶行的描述行和第一列的label列;test数据集大小是28001*784,包含了顶行的描述行。与train数

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值