机器学习一脸懵笔记【02】应用机器学习过程

机器学习的好处是预测和做出预测的模型。知道如何可靠地对每个问题进行高质量的预测,您需要遵循系统的流程——

步骤1:定义您的问题。

用一个实用的三步框架来定义问题!该框架可帮助我快速了解问题的要素和动机以及机器学习是否合适。框架如下——

1:有什么问题?

列出:非正式说明+形式主义+假设条件+类似问题
举例说明:

  1. 非正式说明
    口语化的描述,诸如“我需要一个程序来告诉我哪些推文将获得转发。”
  2. 形式主义
    汤姆·米切尔的机器学习定义:“一个计算机程序可以从经验E中学习有关某类任务T性能度量P的信息,如果计算机对T中任务的性能(由P度量)随着经验E的提高而有所提高。”——使用这种形式主义为您的问题定义T,P和E。 例如:

任务(T):将尚未发布的推文分类为是否要获取推文。
经验(E):一个帐户的推文语料库,其中一些包含转发,而另一些则没有。
性能(P):分类准确性,在所有推文中正确预测的推文数量(以百分比表示)。

  1. 假设条件
    创建有关问题及其措辞的假设列表。这些可能是经验法则和特定于域的信息,您认为这些信息将使您更快地找到可行的解决方案。例如:与最近的推文相比,较旧的推文的预测性较差。
  2. 类似问题
    For example: A related problem would be email spam discrimination that uses text messages as input data and needs binary classification decision.

2:为什么需要解决问题?

  1. 解决问题的动机?解决问题后将满足什么需求?
    例如,您可能正在通过学​​习练习解决问题。这有助于进行澄清,因为您可以决定不想使用最合适的方法来解决问题,而是想探索自己不熟悉的方法来学习新技能。
  2. 考虑如何使用问题的解决方案以及期望解决方案的寿命类型。作为程序员,我们通常认为工作是在编写程序后立即完成的,但实际上该项目才刚刚开始其维护生命周期。考虑您是要编写报告以显示结果还是要实施该解决方案。如果要实施解决方案,请像软件项目一样考虑解决方案的功能和非功能需求。 //迷茫ing…

3:如何解决该问题?

描述如何手动解决问题以刷新域知识。

第2步:准备数据。

机器学习算法从数据中学习。为他们提供要解决的问题的正确数据至关重要。即使您拥有良好的数据,也需要确保其具有有用的规模,格式,甚至包括有意义的功能。
您对数据的处理越严格,就越可能获得一致和更好的结果。为机器学习算法准备数据的过程可以概括为三个步骤:

1:选择数据

  1. 您可获得的数据范围是多少?例如,通过时间,数据库表,连接的系统。确保您对可以使用的所有内容都有清晰的了解。
  2. 您希望拥有哪些不可用的数据?例如,未记录或无法记录的数据。您可能可以导出或模拟此数据。
  3. 您不需要什么数据来解决问题?排除数据几乎总是比包括数据容易。记下您排除了哪些数据以及原因。

2:预处理数据

将所选数据转换为可以使用的表单!三种常见的数据预处理步骤是格式化,清理和采样:

  1. 格式化:您选择的数据可能不是适合您使用的格式。数据可能在关系数据库中,而您希望在平面文件中,或者数据可能在专有文件格式中,并且希望在关系数据库或文本文件中。
  2. 清洁:清洁数据是删除或修复丢失的数据。可能有一些数据实例不完整,并且没有携带您认为需要解决的数据。这些实例可能需要删除。此外,某些属性中可能包含敏感信息,并且这些属性可能需要匿名或完全从数据中删除。
  3. 抽样:可能有更多的选定数据供您使用。更多数据可导致算法的运行时间更长,并且对计算和内存的要求更高。您可以选择较小的代表性数据样本,在考虑整个数据集之前,对于探索解决方案和原型解决方案而言可能更快。

3:转换资料【特征工程】

三种常见的数据转换是缩放,属性分解和属性聚合。

  1. 缩放比例 :预处理的数据可能包含属性,这些属性包含各种数量(例如美元,公斤和销量)的比例混合。许多机器学习方法(例如数据属性)具有相同的比例,例如,给定特征的最小值和最大值介于0和1之间。考虑您可能需要执行的任何功能缩放。
  2. 分解:可能存在代表复杂概念的功能,当分解为组成部分时,这些特征对于机器学习方法可能更有用。一个示例是日期,其中可能包含日期和时间部分,这些日期和时间部分又可以进一步细分。也许只有一天的时间与要解决的问题有关。考虑可以执行哪些功能分解。
  3. 聚合:某些功能可以聚合为一个功能,这对您要解决的问题更有意义。例如,每次客户登录到系统中可能都有一个数据实例,该数据实例可以汇总到一个登录次数计数中,从而允许丢弃其他实例。考虑可以执行哪种类型的功能聚合。

这是一个很大的问题,之后有必要再继续学。

步骤3:抽查算法。

抽查算法是关于对机器学习问题中的一系列不同算法进行快速评估,以便您了解要关注的算法和要丢弃的算法。

步骤4:改善结果。

看了会疯——https://machinelearningmastery.com/how-to-improve-machine-learning-results/

步骤5:呈现结果。

————————————————————————————
2020.01.25
看疯了

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值