数据科学的七个工作流程

工作流程(workflow stages)
  1. 问题的定义
  2. 获取训练和测试数据
  3. 数据准备、清洗
  4. 分析,识别模式和探索数据
  5. 模型,预测和解决问题
  6. 可视化,报告,和呈现问题解决步骤和找到解决方案
  7. 提供或提交结果

这个工作流程提供了每个阶段的下一个步骤。但是没什么东西是绝对的。
  • 我们可以结合各个工作流程步骤,我们可以通过可视化分析数据。
  • 把有些步骤先执行,我们可以先分析数据然后再进行数据清洗。
  • 执行某个步骤多次,要很多的可视化。
  • 放弃这些流程的定式。

工作流目标(workflow goals)
数据科学工作流主要解决七个主要问题。
  • 分类(classifying)。这里的分类不是分类问题,是对我们的样本进行分类,我们希望理解不同的分类对解决我们问题的影响和相关性。
  • 关联(correlating)。我们可以根据训练数据集中的可用特征来解决问题。统计学上,特征和目标是否有相关性,随着特征值变化,目标的状态也会变化。
  • 转换(converting)。在建模阶段,需要准备数据。根据模型算法的选择,可能需要将所有的元素进行转换为数值等有效值,例如将文本分类值转换为数值
  • 完整(completing)。数据预处理可能需要去估计所有特征的缺失值。模型在没有缺失值的数据上会表现的更好。
  • 修正(correcting)。我们也需要分析给定的训练数据中错误的样本,并修改这些数据或者是排除错误样本。
  • 创建(creating)。我们可以基于给定的原始特征,构造新的特征,使新特征遵循正确,相关性,完整性等目标。
  • 可视化(charting)。根据数据的性质和解决的目标选择正确的可视化。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值