1.收集数据
准备输入数据
- 得到数据后,需要对数据进行处理,确保数据格式符合要求
- 需要为机器学习算法准备特定的数据格式
分析输入数据
- 为了确保前两步有效:
- 用文本编辑器打开数据文件,查看得到的数据是否为空值,分析是否可以识别出模式;数据中是否存在明显的异常值
- 通过一维、二维或三维图展示数据,但一次图形化无法展示所有特征
- 如果我们认为数据没有问题,可直接跳过这一步
训练算法
- 将前面得到的数据输入算法,从中抽取知识或信息;这里得到的信息需要储存为计算机可处理的格式,方便后续使用
- 若使用非监督学习算法,由于不存在目标变量值,故不需要训练算法
测试算法
- 使用上一步得到信息;为了评估算法,必须测试算法工作的效果。对于有监督学习,需用已知的目标变量值评估算法;对于非监督学习,必须用其他评估手段来检验算法的成功率
- 若不满意算法的输出结果,则可回到训练算法阶段,改正并加以测试
使用算法
- 将机器学习算法转化为应用程序,执行实际任务