Kaggle学习之路(二) —— Digit Recognizer之问题分析

最新推荐文章于 2024-09-02 17:03:11 发布

memoryjdch

最新推荐文章于 2024-09-02 17:03:11 发布

阅读量2.2k

点赞数 1

分类专栏： kaggle比赛之路文章标签： kaggle python one-hot编码

本文链接：https://blog.csdn.net/memoryjdch/article/details/75220498

版权

本文介绍了Kaggle的Digit Recognizer问题，包括明确目标、理解数据集和数据预处理。通过分析784像素的手写数字图像，进行one-hot编码，并讨论其在模型训练中的作用。此外，还探讨了训练集和验证集的划分策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Digit Recognizer是数字手写体识别。
Kirill Kliavin基于TensorFlow 框架与深度学习算法，给出了准确率高达0.99的解决方法，值得我们学习。

阅读本篇的先决条件：需要有一定python基础，一些线性代数的理论基础，尤其是对于矩阵的处理。（矩阵的乘法，转置等）
如果你对机器学习的原理感兴趣，推荐你学习Andrew Ng（吴恩达）的coursera的课程：https://www.coursera.org/learn/machine-learning

本篇主要说明Digit Recognizer的分析，代码我已经写了详细的注释，如果你感兴趣，请移步：
https://github.com/Skyamz/Data_Recognizer

让机器判断人类的手写体数字是几，并且输出出来。

train.csv是训练集，这些数据用来建立一个模型。数字以图片的形式存储在电脑中，我们将这个数字图片分成784个像素(pixel)，存储在一个向量里面。训练集的一行就表示一个向量，也就是一个数字。784列对应的就是784个像素。第一行label表明这一行是数字几。我们的数据有42000行，即有42000个手写的数字图片。第十行的数字‘8‘长这个样子：