机器学习研究方法系列(1):5步系统处理你的问题
前言
文章转载并翻译自: Applied Machine Learning Process
一、五步处理过程
1、定义你的问题
2、准备数据
3、定义关键的算法
4、提升你的结果
5、展现你的结果
二、详细解释
1.定义你的问题
1)问题是什么?
正式或非正式地描述你的问题,列出你的假设和相似的问题
2)为什么这个问题需要被解决?
列出你解决这个问题的动机,解决方法提供的好处,所解决的方法将会被如何使用
3)我将会如何解决这个问题?
手动描述如何应用领域知识解决这个问题
(在精读论文的时候也应该从这几个维度去对文章进行审视)
更详细的定义问题: How to define your machine learning problem
2.读入数据
1)数据选择
考虑什么数据是可用的,缺失了什么数据,什么数据可以被移除
2)数据预处理
通过清除、格式化和采样对你所选取的数据进行组织
3)数据转换
通过剪裁,分解和属性聚合来将预处理的数据转换成机器学习适合的数据
更详细的处理数据: How to prepare data for machine learning
3. 定义关键的算法
4. 提升你的结果
1)算法调整
2)联合多个方法
使用多个模型联合做出的预测
3)极端特征工程
在数据准备中的分解和属性聚合推动了它的极限
更详细的提升结果方法: How to improve machine learning results
5. 展现你的结果
展现结果需要以下的几个要素
- 语境(why)
定义问题所处的环境,定义寻求问题答案的动力所在 - 问题(questions)
精确地描述你所提出和回答的问题 - 解决方法(answer)
精确地描述你的方法,把它作为你所提出的问题的答案 - 发现
列出在研究时的发现,这些发现有可能在数据中,方法为什么可行或为什么不可行,模型的表现 - 限制
考虑模型无法工作成功的原因,或是模型没有成功解决的问题。不要为这些问题而羞愧, - 总结(why+question+answer)
回顾你的"why",方法和答案
更详细的利用你的实验数据的方法: How to use machine learning results