【原创】机器学习一般流程总结

最新推荐文章于 2024-06-03 11:02:58 发布

suvedo

最新推荐文章于 2024-06-03 11:02:58 发布

阅读量1w

点赞数 2

分类专栏：机器学习文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010567574/article/details/109501117

版权

前段时间总结了下机器学习的一般流程，经过一番梳理后，写成博客，与大家分享。
机器学习一般包含这5个步骤：数据获取、特征提取、模型训练和验证、线下测试、线上测试。

数据获取

首先从线上拉取用户真实数据，用现有模型过一遍这些数据得到一些有用的信息作为标注人员的一个参考，加快标注速度；
标注完成后，数据入库并解决冲突，冲突即是同一个query，两次标注结果不一致，解决冲突的办法一般是人工check，得到一个更准确的标注；

特征抽取

NLP任务一般需要抽取数据的特征，如ngram、词典特征、词向量特征、上游模块的输出等。
一般离线和在线均需要特征抽取，所以离在线的这部分代码是共用的，避免在线特征抽取和离线不一致。
抽取特征时有个小技巧是把能想到的特征均抽取出来，并保存成文本文件，避免重复的执行特征抽取的步骤，在实验的时候用mask的方式去屏蔽掉那些对模型没用的特征，因为针对神经网络这样的模型，值为0的特征一般不影响最终结果（如tanh/ReLU等，但sigmoid激活层可能会影响）。
这样抽取出来的特征的格式一般还不能满足机器学习框架的要求，通过脚本转化成机器学习框架要求的格式即可。

模型训练和验证

常用的模型训练和验证步骤是：首先以一个简易的算法开始，快速的进行实现，并在交叉验证集上进行验证；
然后画出它的学习曲线，通过学习曲线确定是否更多的数据或者更多的特征会对模型的优化有帮助。
接着人为地检测交叉验证集中被错误的进行分类的或者预测的样本的共同特征，从实际入手

最低0.47元/天解锁文章

关注

2
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
【原创】机器学习一般流程总结

前段时间总结了下机器学习的一般流程，经过一番梳理后，写成博客，与大家分享。机器学习一般包含这5个步骤：数据获取、特征提取、模型训练和验证、线下测试、线上测试。数据获取首先从线上拉取用户真实数据，用现有模型过一遍这些数据得到一些有用的信息作为标注人员的一个参考，加快标注速度；标注完成后，数据入库并解决冲突，冲突即是同一个query，两次标注结果不一致，解决冲突的办法一般是人工check，得到一个更准确的标注；特征抽取NLP任务一般需要抽取数据的特征，如ngram、词典特征、词向量特征、上游模块的输
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。