机器学习/神经网络通用工作流程(个人总结)

最新推荐文章于 2024-08-13 23:24:48 发布

鱼翅翅翅

最新推荐文章于 2024-08-13 23:24:48 发布

阅读量704

点赞数 10

分类专栏：鱼翅的ML/DL笔记文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/nmbnn8821750/article/details/136425246

版权

鱼翅的ML/DL笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

因为是自己的学习笔记，方便自己理解，写得会比较细比较口语化，也有可能比较杂，不对的地方欢迎指正。

一，定义问题，确定任务类型，收集数据

具体的任务类型如分类或回归等不在此赘述。比较想提的一点是，如果是业务场景，该模型开发出来是给哪个部门提供支撑，一定要仔细商讨确定好，包括可用数据，最终目标等，在此基础上再去确定任务类型。

ps:对于非平稳问题，如建模对象随着时间推移而改变，利用最新数据重新训练是一般的做法，或者在更长的平稳时间段上收集数据，如一整年的（比如服装销量预测模型，在月维度上的数据的话就得不断利用最新数据重新训练,但若你能收集到以年维度的，就能维持模型一定的稳定性，不必每次重头训练）

二，确定衡量指标

要与业务目标一致，如最小风险损失还是最大精度？召回率还是准确率？在业务场景下，这同样应该是与支撑部门开会协商好。

三，确定验证方法

数据量大，用 留出验证法 。即留出一部分验证集，这种方法大部分情况下是足够应对的。
数据量小，精度要求不高，使用 k折交叉验证 。
数据量小，精度要求高，使用 重复的k折交叉验证 (比起第二种计算代价会激增。)

四，处理数据(特征工程)

特征工程，也就 是为数据寻找新的表示，让机器能够更加容易的学习/识别出模式。举个栗子，如果要根据时钟的图像让机器学习是几点钟，把整张图象的像素点直接输入模型虽然可以，但是如果你事先处理一下，用极坐标的方式来表达每个时针指向，再输入模型，学习效果无疑会好很多。一些常见特征工程流程包括数据清洗，处理，特征选择，特征构造和降维等，具体方法不在本篇讨论。

值得一提的是，对于神经网络，要做的数据预处理一般比较少，因为神经网络能够从数据中自动提取有用的特征(毕竟这就是权重更新的意义)，但有的时候，我们仍需要进行特征工程，因为：

能够节省资源，比如上面提到的例子，把训练数据从整个图像的像素点，转换为只表示时钟指向的极坐标，这无疑会节省很多空间。
对数据量的要求会降低。还是上面的例子，如果你没转换，可能1000条数据作为样本输入模型训练，才能让模型达到你想要的精度，但如果你转换了，模式学习变得更容易了之后，可能200条就能达到同样的精度。(所以如果本身数据量就较少的情况，就一定要考虑进行特征工程。)

除此之外，神经网络的数据预处理一般就围绕3个方面：

把数据向量化（data vectorization），因为神经网络的所有输入和目标都是浮点数张量，所以这一步是必不可少的。如下所示：

为了形象展示我用excel列出来了，实际情况一般是这种形式：((A,B)，（A,C,D）)

通过向量化变为了2x4的向量(实际储存中下标当然不会存所以是2x4而不是2x5)。一般用one-hot实现。

2.数值标准化, 一般用 Standard Normalization 或者 Robust Normalization 就可以了。这么做是因为若把取值相对较大的数据或者异质数据(取值尺度不一样的数据，如一个特征取值范围0~1，一个0~100)输入神经网络，可能会导致较大的梯度更新，从而网络无法收敛。

3. 缺失值处理，一般把缺失值补0就可以了，神经网络会自动学习到为0的是缺失值。值得注意的是，如果测试数据中有缺失值，而训练数据里面没有，这个时候应该人为制造一些带缺失值的训练数据。