[kaggle实战] Digit Recognizer -- 从KNN,LR,SVM,RF到深度学习

最新推荐文章于 2025-04-29 16:20:42 发布

Dinosoft

最新推荐文章于 2025-04-29 16:20:42 发布

阅读量1.4w

点赞数 9

分类专栏：机器学习文章标签： sklearn kaggle knn lr svm

本文链接：https://blog.csdn.net/dinosoft/article/details/50734539

版权

这篇博客通过kaggle上的Digit Recognizer实战，介绍了从KNN、LR、SVM、Random Forest到深度学习的模型应用。作者强调实践的重要性，并分享了使用sklearn库进行模型训练和调参的经验，包括KNN中距离权重的影响，LR的局限性和SVM的优势。最后，作者展示了深度学习模型在图像识别中的强大能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

纸上得来终觉浅，还是要多实践呐！
之前看了很多入门的资料，如果现在让我来写写，我觉得我会选择”数字识别(digit recognizer)”作为例子，足够有趣，而且能说明很多问题。kaggle是个实践的好地方，python是门方便的语言，sklearn是个不错的库，文档很适合学习。那就用sklearn来实践一下机器学习，加深理解吧！至于机器学习具体的算法，这里就不赘述了，可以参考博客里其他文章。

kaggle数据读取

import pandas as pd
import numpy as np
import time
from sklearn.cross_validation import cross_val_score


#read data 
dataset = pd.read_csv("./data/train.csv")
X_train = dataset.values[0:, 1:]
y_train = dataset.values[0:, 0]


#for fast evaluation
X_train_small = X_train[:10000, :]
y_train_small = y_train[:10000]


X_test = pd.read_csv("./data/test.csv").values

这个代码可以作为模版来用。基本的数据读取，切分X和y，切分小数据用于快速迭代。发现训练有些久，打印个时间看看。离线评估cross validation肯定也是要的。
pandas的dataframe当然是个好东西，完整去学太费时间了，建议先把几个常用的学起来就好了吧。

对于数字识别，从”人脑学习”的角度可能是先识别笔画，然后根据笔画构造出来的关键结构去识别。比如8是上下两个圈圈。如果没学过机器学习，可能就从这个思路开始想了。然后，我们来对比看看机器学习是怎么做的。

KNN

KNN在这里有个很直观intuition，跟哪个数字比较像，那就判断为哪个数字。虽然看上去有点土，但道理上完全讲得通！另辟蹊径，倒是一个挺赞的思路。KNN需要记录原始训练样本，有点死记硬背的味道(属于Non-Parametric Models)。说不定阿猫阿狗之类的动物就是用这种方法来”学习”的。

作为一名机器学习调包客，调参侠，sklearn这个库已经选好了，然后就是调参了。文档在KNeighborsClassifier。用来学习确实不错。
为了加速预测，除了在《统计学习方法》看到过的kd tree结构，这里还提到了ball_tree。加上暴力法，那就有三种方法了，即 {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}。这个只影响预测时间，不影响训练精确度。
看了文档 (现在知道我说sklearn文档好什么意思吧)发现除了指定k，我们还可以指定半径，不过我试了下，因为这里是高维的，我也选不好半径到底选多少，如果太小就会出现一些样本在半径内没近邻，挺麻烦的。还是用K吧。
先试了一下把K调大，以为判断的时候使用多一些样本，准确率会好转，结果发现居然下降了！仔细想想，K调大，那些越不像的样本也混进来了。这样不行，权重要降低点才行。加上weights=’distance’吧，确实有效！
另一个就是metric=’minkowski’，闵可夫斯基，听起来怪怪的，其实就是更一般的距离公式而已，p=2时是欧拉距离，p=1就是曼哈顿距离。默认是2，调成1发现降了，调成3上升了点（发现速度急速下降！？影响kd tree的构建了？）。貌似不好直观解释，而且这个距离计算，显然还会影响weights=’distance’。这里的距离更直观解释其实是”相似度”，怎样衡量图像相似？貌似不太好说。可能可以用上图像处理方面的技术，这里就不深究了。
代码

#knn
from sklearn.neighbors import KNeighborsClassifier
#begin time
start = time.clock()

#progressing
knn_clf=KNeighborsClassifier(n_neighbors=5, algorithm='kd_tree', weights='distance', p=3)
score = cross_val_score(knn_clf, X_train_small, y_train_small, cv=3)

print( score.mean() )
#end time
elapsed = (time.clock() - start)
print("Time used:",int(elapsed), "s")
#k=3
#0.942300738697
#0.946100822903 weights='distance'
#0.9507

最低0.47元/天解锁文章