工作流程(workflow stages)
- 问题的定义
- 获取训练和测试数据
- 数据准备、清洗
- 分析,识别模式和探索数据
- 模型,预测和解决问题
- 可视化,报告,和呈现问题解决步骤和找到解决方案
- 提供或提交结果
这个工作流程提供了每个阶段的下一个步骤。但是没什么东西是绝对的。
- 我们可以结合各个工作流程步骤,我们可以通过可视化分析数据。
- 把有些步骤先执行,我们可以先分析数据然后再进行数据清洗。
- 执行某个步骤多次,要很多的可视化。
- 放弃这些流程的定式。
工作流目标(workflow goals)
数据科学工作流主要解决七个主要问题。
- 分类(classifying)。这里的分类不是分类问题,是对我们的样本进行分类,我们希望理解不同的分类对解决我们问题的影响和相关性。
- 关联(correlating)。我们可以根据训练数据集中的可用特征来解决问题。统计学上,特征和目标是否有相关性,随着特征值变化,目标的状态也会变化。
- 转换(converting)。在建模阶段,需要准备数据。根据模型算法的选择,可能需要将所有的元素进行转换为数值等有效值,例如将文本分类值转换为数值
- 完整(completing)。数据预处理可能需要去估计所有特征的缺失值。模型在没有缺失值的数据上会表现的更好。
- 修正(correcting)。我们也需要分析给定的训练数据中错误的样本,并修改这些数据或者是排除错误样本。
- 创建(creating)。我们可以基于给定的原始特征,构造新的特征,使新特征遵循正确,相关性,完整性等目标。
- 可视化(charting)。根据数据的性质和解决的目标选择正确的可视化。