机器学习系列(19)_通用机器学习流程与问题解决架构模板

原文地址:Approaching (Almost) Any Machine Learning Problem
原文翻译与校对:@姜范波 && @黄文畅 && 寒小阳
时间:2016年10月。
出处:http://blog.csdn.net/han_xiaoyang/article/details/52910022
声明:版权所有,转载请联系作者并注明出

前言

本文由Searchmetrics公司高级数据科学家Abhishek Thakur提供。

一个中等水平的数据科学家每天都要处理大量的数据。一些人说超过60%到70%的时间都用于数据清理、数据处理及格式转化,以便于在之后应用机器学习模型。这篇文章的重点便在后者—— 应用机器学习模型(包括预处理的阶段)。此文讨论到的内容来源于我参加的过的数百次的机器学习竞赛。请大家注意这里讨论的方法是大体上适用的,当然还有很多被专业人士使用的非常复杂的方法。

接下来会使用到python。

数据

在应用机器学习模型之前,所有的数据都必须转换为表格形式。如下图所示,这个过程是最耗时、最困难的部分。

转换完成之后,便可以将这些表格数据灌入机器学习模型。表格数据是在机器学习或是数据挖掘中最常见的数据表示形式。我们有一个数据表,x轴是样本数据,y轴是标签。标签可以是单列可以是多列,取决于问题的形式。我们会用X表示数据,y表示标签。

标签的种类

标签会定义你要解决何种问题,有不同的问题类型。例如:

  • 单列,二进制值(分类问题,一个样本仅属于一个类,并且只有两个类)
  • 单列,实数值(回归问题,只预测一个值)
  • 多列,二进制值(分类问题,一个样本属于一个类,但有两个以上的类)
  • 多列,实数值(回归问题,多个值的预测)
  • 多个标签(分类问题,一个样本可以属于几个类)

评估指标

对于任何类型的机器学习问题,我们都一定要知道如何评估结果,或者说评估指标和目的是什么。举例来说,对于不均衡的二进制分类问题,我们通常选择受试者工作特征曲线下面积(ROC AUC或简单的AUC);对于多标签或多类别的分类问题,我们通常选择分类交叉熵或多类对数损失;对于回归问题,则会选择均方差。

我不会再深入的讲解不同的评估指标,因为根据问题的不同会有很多不同的种类。

开始尝试机器学习库可以从安装最基础也是最重要的开始,像numpy和scipy。

  • 31
    点赞
  • 174
    收藏
    觉得还不错? 一键收藏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值