解决机器学习问题的步骤

随着致力于应用机器学习问题,你会摸索出一个快速获取具有棒棒哒鲁棒性结果的模式或步骤,你可以在下一个项目中重用这个步骤,该步骤越强健,你得到可靠结果的速度就越快。

应用机器学习的步骤

5步法:

1.定义问题

2.准备数据

3.抽查算法

4.改善结果

5.展示结果

以上步骤具有灵活性。例如“准备数据”步骤可以被分解为分析数据(总结和绘图)和准备数据(准备实验样本)。“抽查算法”步骤可能涉及多个正式的实验。

这是个大的生产线,自动化使你可以回溯一些步骤(从改善结果回到准备数据),并且插入新的变换数据集,然后重新执行中间的实验观察结果并与前面实行的实验进行对比。

1.定义问题

step1:问题是什么?描述问题并列出假设和类似的问题

step2:该问题为什么需要被解决?列出你解决问题的动机,解决方案提供的益处和解决方案将会被如何使用

step3:该如何解决它?手动地描述问题将被如何解决以明确领域知识。

2.准备数据

在数据准备之始,有一个数据分析阶段,它涉及:总结属性和使用散点图直方图可视化数据。详细描述每个属性和属性间的关系也是极好的。通过分析会促使我思考数据上下文环境。

3步法化的数据准备步骤:

Step1:数据选择:考虑什么数据是可用的,哪些数据是有缺失的,哪些数据可以被移除。

Step2:数据处理:通过格式化组织你选择的数据,清洗并从中取样

Step3:数据变换:通过工程学特征(尺度缩放、属性分解和属性聚合)变换预处理数据为机器学习做准备。

3.抽查算法

在我的测试工具里默认使用10折交叉验证。所有试验(算法和数据集组合)被重复10次,准确性的平均值和标准差被收集和报告,盒图对总结结果准确性(对应于每个算法和数据集对)的分布也很有用。

抽查算法是指在测试工具里加载一批标准机器学习算法并执行正式实验。

抽查的目的是明确算法和数据集的类型组合是否善于发现问题的结构,这样他们可以通过重点实验被更详细的研究。

对具有良好性能的算法执行更有针对性的实验,下一步就可以进行算法调优。

测试工具是指算法的评估方法

4.改善结果

是时候从现有配置中挤出最棒结果了。在性能最好的算法的参数上运行自动化灵敏度分析。

结果的统计显著性再次变得重要。很容易集中注意力到方法和算法配置。

总之,改善结果的步骤涉及:

算法调优:探索最好的模型就是模型参数空间的搜索问题

方法集成:预测由多个组合模型结合获得

极端特征:属性分解和聚合被推向极致

5.展示结果

复杂的结果是没有意义的,除非它有用。

用于展示结果 的模板如下:

背景(为什么):定义问题存在的环境并设置研究问题的动机

问题(提问):扼要描述问题,提问并回答。

解决方案(回答):扼要描述方案,比上一步要详细

调查:发现你的列表让观众感兴趣的点,他们可能会发现数据、方法是否有用,模型可能提供的性能益处

限制:考虑模型的适用性在哪,哪些问题不能解决。如果指出模型不擅长的地方,则模型擅长的地方就会更令人信服

结论:(Why+Question+Answer):回顾为什么,研究问题和回答,浓缩成紧致的发现会更容易记住和被他人复述。

总结

本节学习了处理机器学习问题的通用模板。该步骤跨平台(Weka,R和scikit-learn等)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
机器学习是一种通过计算机算法和模型来解决问题的方法。它可以自动地从数据中发现规律和模式,并用这些规律和模式来进行预测和分类。机器学习的基本流程可以分为以下几个步骤: 1. 数据收集和准备 机器学习需要大量的数据来进行训练。在进行数据收集前,需要明确问题的具体需求,并考虑如何收集和准备数据。数据的来源可以是现有的数据集,也可以是通过爬虫等方式收集的原始数据。在进行数据收集之前,还需要对数据进行清洗和格式化,以保证数据的质量和可用性。 2. 特征提取 在进行机器学习之前,需要对数据进行特征提取。特征是指能够描述数据的属性或特征,如颜色、形状、大小等。通过对数据进行特征提取,可以将数据转换为机器学习算法能够处理的格式,也可以减少模型的复杂度和训练时间。 3. 模型选择和训练 在进行模型选择之前,需要明确问题的类型和目标,并根据问题的特点选择合适的机器学习算法。常见的机器学习算法包括决策树、神经网络、支持向量机等。在选择模型之后,需要使用训练数据对模型进行训练。训练数据包括已知的输入和输出,模型会根据这些数据来学习和优化自己的参数。 4. 模型评估和优化 在模型训练完成之后,需要对模型进行评估和优化。评估模型的好坏可以使用一些指标,如准确率、精确率、召回率等。如果模型的表现不好,可以通过调整模型参数、增加训练数据等方式来进行优化。 5. 模型部署和应用 在模型训练和优化完成之后,需要将模型部署到实际的应用中。部署的方式可以是将模型嵌入到应用程序中,也可以使用API服务的形式进行调用。在应用中使用机器学习模型可以帮助我们解决一些复杂的问题,如图像识别、语音识别、自然语言处理等。 总的来说,机器学习解决问题步骤包括数据收集和准备、特征提取、模型选择和训练、模型评估和优化、模型部署和应用等。在不同的问题场景下,可能需要针对具体的需求进行一些调整和优化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值