机器学习介绍
本文只是一个入门级的教程,旨在给大家一个整体宏观上的认识。那什么是机器学习?机器学习中涉及的2个关键角色,分别是数据、模型。而机器学习的过程就是将这些数据应用到模型上,然后不断地优化算法(或调整参数)让模型不断地逼近数据的原始分布。虽然定义不那么精确,但是我觉得这样好理解,一千个人眼中有一千个哈姆雷特,能让自己理解和记忆的定义就是你眼中的哈姆雷特。
机器学习步骤
这只是一个大致的流程,实际操作中每个步骤又可能包含几个小的步骤,其中最重要的两部分是特征选取和模型训练。
-
数据准备
一般情况我们得准备3份数据,分别是描述文件,训练数据和测试数据。例如:
文件 内容与含义 data_description.txt 描述文件,详细介绍了每一个字段的含义与解释 train.csv 训练文件 test.csv 测试文件 -
模型选型
在机器学习领域,模型的种类非常的多,不仅如此,模型的分类方法也各不相同。
1、按照拟合能力分类:有线性模型、非线性模型
2、按预测标的划分:有回归、分类、聚类和挖掘
3、按模型复杂度分:有经典算法、深度学习
4、按照模型结构分:有广义线性模型、树模型、神经网络
-
特征选取
在机器学习领域,与预测标的相关的属性,统称为 “数据特征” (Features),而选择有效特征的过程称为 “特征选择”(Features Selection)。当选好了特征值之后将其拟合成一个特征向量(Feature Vectors),然后再选取一个预测的标的。
-
模型训练
接下来我们就可以使用训练数据去训练选出来的模型了,模型训练时一个持续不断的过程,训练过程是反复扫描同一份数据,反复进行迭代,不断更新模型中的参数(Parameters ,也叫作权重,Weights),直到模型的预测效果达到一定的标准,才能训练结束。
关于标准的制定:一方面看对于预测误差的要求;另一方面就是对迭代次数的要求。
-
模型效果评估
使用测试数据对模型效果进行验证、评估。对模型效果评估的方式有很多种,如具有代表性的均方根误差(RMSE,Root Mean Squared Error)。
-