解决机器学习问题的步骤

随着致力于应用机器学习问题,你会摸索出一个快速获取具有棒棒哒鲁棒性结果的模式或步骤,你可以在下一个项目中重用这个步骤,该步骤越强健,你得到可靠结果的速度就越快。

应用机器学习的步骤

5步法:

1.定义问题

2.准备数据

3.抽查算法

4.改善结果

5.展示结果

以上步骤具有灵活性。例如“准备数据”步骤可以被分解为分析数据(总结和绘图)和准备数据(准备实验样本)。“抽查算法”步骤可能涉及多个正式的实验。

这是个大的生产线,自动化使你可以回溯一些步骤(从改善结果回到准备数据),并且插入新的变换数据集,然后重新执行中间的实验观察结果并与前面实行的实验进行对比。

1.定义问题

step1:问题是什么?描述问题并列出假设和类似的问题

step2:该问题为什么需要被解决?列出你解决问题的动机,解决方案提供的益处和解决方案将会被如何使用

step3:该如何解决它?手动地描述问题将被如何解决以明确领域知识。

2.准备数据

在数据准备之始,有一个数据分析阶段,它涉及:总结属性和使用散点图直方图可视化数据。详细描述每个属性和属性间的关系也是极好的。通过分析会促使我思考数据上下文环境。

3步法化的数据准备步骤:

Step1:数据选择:考虑什么数据是可用的,哪些数据是有缺失的,哪些数据可以被移除。

Step2:数据处理:通过格式化组织你选择的数据,清洗并从中取样

Step3:数据变换:通过工程学特征(尺度缩放、属性分解和属性聚合)变换预处理数据为机器学习做准备。

3.抽查算法

在我的测试工具里默认使用10折交叉验证。所有试验(算法和数据集组合)被重复10次,准确性的平均值和标准差被收集和报告,盒图对总结结果准确性(对应于每个算法和数据集对)的分布也很有用。

抽查算法是指在测试工具里加载一批标准机器学习算法并执行正式实验。

抽查的目的是明确算法和数据集的类型组合是否善于发现问题的结构,这样他们可以通过重点实验被更详细的研究。

对具有良好性能的算法执行更有针对性的实验,下一步就可以进行算法调优。

测试工具是指算法的评估方法

4.改善结果

是时候从现有配置中挤出最棒结果了。在性能最好的算法的参数上运行自动化灵敏度分析。

结果的统计显著性再次变得重要。很容易集中注意力到方法和算法配置。

总之,改善结果的步骤涉及:

算法调优:探索最好的模型就是模型参数空间的搜索问题

方法集成:预测由多个组合模型结合获得

极端特征:属性分解和聚合被推向极致

5.展示结果

复杂的结果是没有意义的,除非它有用。

用于展示结果 的模板如下:

背景(为什么):定义问题存在的环境并设置研究问题的动机

问题(提问):扼要描述问题,提问并回答。

解决方案(回答):扼要描述方案,比上一步要详细

调查:发现你的列表让观众感兴趣的点,他们可能会发现数据、方法是否有用,模型可能提供的性能益处

限制:考虑模型的适用性在哪,哪些问题不能解决。如果指出模型不擅长的地方,则模型擅长的地方就会更令人信服

结论:(Why+Question+Answer):回顾为什么,研究问题和回答,浓缩成紧致的发现会更容易记住和被他人复述。

总结

本节学习了处理机器学习问题的通用模板。该步骤跨平台(Weka,R和scikit-learn等)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值