ML&DEV[13] | 快速从无到有建模完成思路

最新推荐文章于 2020-07-19 21:30:00 发布

机智的叉烧

最新推荐文章于 2020-07-19 21:30:00 发布

阅读量177

点赞数

本文链接：https://blog.csdn.net/baidu_25854831/article/details/105040009

版权

【ML&DEV】

这是大家没有看过的船新栏目！ML表示机器学习，DEV表示开发，本专栏旨在为大家分享作为算法工程师的工作，机器学习生态下的有关模型方法和技术，从数据生产到模型部署维护监控全流程，预备知识、理论、技术、经验等都会涉及，近期内容以入门线路为主，敬请期待！

往期回顾：

经过很长时间的准备，完成了一套比较OK的流程，借助这套流程，我已经能快速从无到有的快速完成一个流程的开发，一周，已经试验成功，庆祝一下。那么下面，来给大家介绍一下这套流程是怎么建立起来的，以便大家参考。

当然，程序和具体方法有涉密风险，只能和大家介绍这个思路。

懒人目录：

方法出现的背景
适用条件
核心思路
全流程内容
离线部分
在线部分
在线和离线
有关重用的问题

方法出现的背景

由于近期需要接触很多同类型相似的任务，因此如果有一个完整的pipline，在资源可依赖的情况下，就能很流畅地完整这个任务。

适用条件

当然任何方法都是有适用条件的，先写一下：

数据资源相对充足。
任务非常相似，需要重复地开展。
整个流程需要花时间建设。
任务时间会大大缩短，最终有多长，和任务复杂度、可重用量等都有关。
算法任务，模型类方案，第一版方案，而非迭代类型。

核心思路

其实整个思路很简单，准备好关键点，大家都能做到。核心就是——可复用，减少可复用内容上花的时间，其实你就可以加快速度了。

重复性工作，需要尽快形成函数，以便下一次可以使用，尤其是数据这块。
特征工程、模型之类，形成特定方法，也是函数化，直接套用。

全流程内容

当然的，先把整个流程理一下。

目标确认。这个一般不会以花太多时间。
资源盘点，数据、机器、耗时、内存，这个也是一段时间。
离线开发与实验，即在本地自己进行试验，这块一般不会涉及任何在线部分代码。
- 数据处理、特征工程。这里会涉及数据清洗、数据转化等流程。
- 模型开发，后面细说。
- 结果检验，检测各种指标，包括bad case抽取等。
在线部分开发，模型师需要上线的，这块肯定需要代码。
- 数据处理、特征工程。这里会涉及数据清洗、数据转化等流程。
- 模型开发，后面细说。
- 结果检验这块，在线部分需要的不是很多。

离线部分

如果是相似项目，NLP里尤其常见，一个具体的任务可以被抽象为一个简单的NLP任务，例如文本分类等，这时候其实就可以按照文本分类的流程去处理了。当然，对于ctr预估之类比较复杂的任务，也只是可重用的内容减少而已。

数据处理

这块随着做的项目逐步多，你的工具会越来越完善，其实常规的自己平时也可以写。常用的可以自己平时就准备。

分词，去标点符号。NLP基操，没什么好说的。
关键的正则表达式，例如括号中内容提取等。
数据标准化，正态分布法、最大最小归一化等。
分桶、one-hot化。

类似这些内容，自己平时多准备好，形成自己的工具函数，一般一个月花点时间整理就好了。

模型开发

初版本，千万不要想着上多么复杂的模型，一般简单模型效果不好复杂模型就别想好，而且大模型耗时风险还高，辛辛苦苦做完了上不了线。第一版本为了保证开发时间，模型开发的时间是最应该压缩的，下面是给大家的一些基线选择。

分类。简单的lr，稍微复杂点的可以上lightgbm或者xgboost，离线在线均可。
回归。先考虑线性回归吧。
序列标注。CRF。
文本分类，简单在线的就fasttext，复杂的bert可以试试，但是这玩意基本上不了线。

这个东西要做到一个水平，数据进来你能直接算，并导出结果。类似这样：

# 模型初始化
model = lr_model()
# 模型训练
model.train(data_train_x, data_train_y)
# 模型预测
model.test(data_test_x, data_test_y) # 批量
model.pred(data_test_x[0], data_test_y[0]) # 单个，出最终分类结果
model.pred_prod(data_test_x[0], data_test_y[0]) # 单个，出类目所属概率

如果没有，要自己包装一个，这个一般写个类就好了，如果是sklearn之类的，其实已经写好了，可以多去看文档。

更加极端点，请到这个地步，shell命令行水平。

nohup python model_learn.py -input_data data_train -dev_data data_dev -model_name model_20200301_1 >> train_log.log &# 训练
python model_test.py -input_data data_test -type 1-model_name model_20200301_1 >> data_test_result

如果是nlp类任务，这块应该是与任务本身无关的简化了，例如要做情感分析，好评1差评0，整理好数据放入，如果是做美食意图识别，那就换个文件的事，就问你快不快吧。