一、机器学习
是一门人工智能的科学。利用数据或以往的经验,以此优化计算机程序的性能标准。英文定义:
A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
图1 机器学习处理过程
ML的三个关键词:算法、经验、性能,其处理过程如图1所示。在数据的基础上,通过算法构建出模型并对模型进行评估。评估的性能如果达到要求要求,就用该模型来测试其他数据;如果达不到要求,则调整算法重新建立模型,再次评估。如此循环,得到满意的经验后来处理其他数据。
二、基于大数据的机器学习
传统的机器学习算法,由于技术和单机存储的限制,只能在少量数据上使用。即以前的统计/机器学习依赖于数据抽样。而实际中样本往往很难做好随机,导致学习模型不是很准确,在测试数据上效果也可能不太好。随着HDFS等分布式文件系统出现,存储海量数据成为可能。在全量数据上进行学习也成为可能,这解决了统计随机性的问题。然而,由于MR自身的限制,使用MR来实现分布式机器学习算法非常耗时和消耗磁盘IO。这是因为,机器学习算法参数学习的过程基本都是迭代的&