机器学习项目清单

开头注明:内容大部分来自机器学习实战:基于Scikit-Learn和TensorFlow

一、架构问题,关注蓝图

1.定义当前目标
2.思考解决方案
3.是否可以重用他人的经验与工具
4.尽可能获取帮助

二、获取数据

1.列出数据及其体量
2.查找并记录获取数据的途径
3.检查需要的空间
4.检查法律义务,必要时获取授权
5.获取访问权限
6.创建工作空间
7.获取数据
8.将数据转化为可操作的格式(不改变数据本身)
9.确保删除或保护敏感信息(如,匿名)
10.检查数据的类型和大小

三、研究数据以获得灵感

1.创建副本用于研究
2.时刻记录
3.研究每个属性及其特征(名称、类型、缺失、噪声)
4.对于监督任务,确认目标属性
5.可视化数据
6.研究属性之间的相关性
7.确定可能有用的额外数据

四、准备数据

1.数据清理(修复或删除异常值、填充缺失值)
2.特征选择
3.处理特征(如离散连续特征、分解特征、添加期望的特征转换)

五、研究各种不同的模型,并列出最好的模型

1.使用标准参数,从不同类别快速训练不成熟的模型
2.测试比较性能(Nfold)
3.分析每个算法最重要的变量
4.分析模型的错误类型
5.快速进行特征选择和处理
6.对上述五步多次迭代后选择三到五个最有希望的模型

六、微调模型,并将其组合为更好的解决方案

1.这一步尽可能多使用数据,尽可能自动化
2.使用交叉验证微调超参数(网格搜索)
3.尝试组合方法
4.在测试集上测试性能

七、提出解决方案

1.展示工作、突出蓝图
2.介绍有趣的地方
3.介绍模型假设和系统的局限性

八、启动、监视、维护系统

1.准备好生产环境的解决方案
2.编写监控代码,定期检查性能,出问题及时解决
3.定期对新数据重新建模

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值