【解决(几乎)任何机器学习问题】:组织机器学习项目

终于,我们可以开始构建第⼀个机器学习模型了。
是这样吗?
在开始之前,我们必须注意⼏件事。请记住,我们将在集成开发环境/⽂本编辑器中⼯作,⽽不是
在 jupyter notebook中。你也可以在 jupyter notebook中⼯作,这完全取决于你。不过,我将只使⽤ jupyter notebook来探索数据、绘制图表和图形。我们将以这样⼀种⽅式构建分类框架,即插即⽤。您⽆需对代码做太多改动就能训练模型,⽽且当您改进模型时,还能使⽤ git 对其进⾏跟踪。
我们⾸先来看看⽂件的结构。对于你正在做的任何项⽬,都要创建⼀个新⽂件夹。在本例中,我
将项⽬命名为 "project"。
项⽬⽂件夹内部应该如下所⽰。
input
        train.csv
        test.csv
src
        create_folds.py
        train.py
        inference.py
        models.py
        config.py
        model_dispatcher.py
models
        model_rf.bin
        model_et.bin
notebooks
        exploration.ipynb
        check_data.ipynb
README.md
LICENSE
让我们来看看这些⽂件夹和⽂件的内容。
input/ :该⽂件夹包含机器学习项⽬的所有输⼊⽂件和数据。如果您正在开发 NLP 项⽬,您可以将embeddings放在这⾥。如果是图像项⽬,所有图像都放在该⽂件夹下的⼦⽂件夹中。
src/ :我们将在这⾥保存与项⽬相关的所有 python 脚本。如果我说的是⼀个 python 脚本,即任
何 *.py ⽂件,它都存储在 src ⽂件夹中。
models/ :该⽂件夹保存所有训练过的模型。
notebook/ :所有 jupyter notebook(即任何 *.ipynb ⽂件)都存储在笔记本 ⽂件夹中。
README.md :这是⼀个标记符⽂件,您可以在其中描述您的项⽬,并写明如何训练模型或在⽣
产环境中使⽤。
LICENSE :这是⼀个简单的⽂本⽂件,包含项⽬的许可证,如 MIT、Apache 等。关于许可证的
详细介绍超出了本书的范围。
假设你正在建⽴⼀个模型来对 MNIST 数据集(⼏乎每本机器学习书籍都会⽤到的数据集)进⾏
分类。如果你还记得,我们在交叉检验⼀章中也提到过 MNIST 数据集。所以,我就不解释这个
数据集是什么样⼦了。⽹上有许多不同格式的 MNIST 数据集,但我们将使⽤ CSV 格式的数据
集。
在这种格式的数据集中,CSV 的每⼀⾏都包含图像的标签和 784 个像素值,像素值范围从 0 到
255。数据集包含 60000张这种格式的图像。
我们可以使⽤ pandas 轻松读取这种数据格式。
请注意,尽管图 1 显⽰所有像素值均为零,但事实并⾮如此。

让我们来看看这个数据集中标签列的计数。 

我们不需要对这个数据集进⾏更多的探索。我们已经知道了我们所拥有的数据,没有必要再对不
同的像素值进⾏绘图。从图 2 中可以清楚地看出,标签的分布相当均匀。因此,我们可以使⽤准
确率/F1 作为衡量标准。这就是处理机器学习问题的第⼀
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

X.AI666

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值