机器学习入门

机器学习介绍

        本文只是一个入门级的教程,旨在给大家一个整体宏观上的认识。那什么是机器学习?机器学习中涉及的2个关键角色,分别是数据、模型。而机器学习的过程就是将这些数据应用到模型上,然后不断地优化算法(或调整参数)让模型不断地逼近数据的原始分布。虽然定义不那么精确,但是我觉得这样好理解,一千个人眼中有一千个哈姆雷特,能让自己理解和记忆的定义就是你眼中的哈姆雷特。

机器学习步骤

         这只是一个大致的流程,实际操作中每个步骤又可能包含几个小的步骤,其中最重要的两部分是特征选取和模型训练。

  • 数据准备

    一般情况我们得准备3份数据,分别是描述文件,训练数据和测试数据。例如:

    文件内容与含义
    data_description.txt描述文件,详细介绍了每一个字段的含义与解释
    train.csv训练文件
    test.csv测试文件
  • 模型选型

    在机器学习领域,模型的种类非常的多,不仅如此,模型的分类方法也各不相同。

    1、按照拟合能力分类:有线性模型、非线性模型

    2、按预测标的划分:有回归、分类、聚类和挖掘

    3、按模型复杂度分:有经典算法、深度学习

    4、按照模型结构分:有广义线性模型、树模型、神经网络

  • 特征选取

    在机器学习领域,与预测标的相关的属性,统称为 “数据特征” (Features),而选择有效特征的过程称为 “特征选择”(Features Selection)。当选好了特征值之后将其拟合成一个特征向量(Feature Vectors),然后再选取一个预测的标的。

  • 模型训练

    接下来我们就可以使用训练数据去训练选出来的模型了,模型训练时一个持续不断的过程,训练过程是反复扫描同一份数据,反复进行迭代,不断更新模型中的参数(Parameters ,也叫作权重,Weights),直到模型的预测效果达到一定的标准,才能训练结束。

    关于标准的制定:一方面看对于预测误差的要求;另一方面就是对迭代次数的要求。

    • 模型效果评估

      使用测试数据对模型效果进行验证、评估。对模型效果评估的方式有很多种,如具有代表性的均方根误差(RMSE,Root Mean Squared Error)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值