机器学习是指程序不断地从经历和数据中吸取经验教训从而提高应对下一次任务的能力。
因此,机器学习的三要素是任务(Task)、经验(Experience)、和性能(Performance。
机器学习根据任务分类,有两类经典的任务是监督学习和非监督学习。
监督学习关注对未知表现的预测,一般包括分类和回归问题。分类是对事物的类别进行预测,类别是离散的,同时类别的数目也是事先知道的;回归的预测目标是连续的变量。
而无监督学习则倾向于对事物本身特性的分析,常用的技术包括数据降维,和聚类分析。降维是对事物的特性进行筛选,便于处理。而聚类是将相似的数据划分为一簇,但是与分类不同的是,我们事先并不知道分成多少簇,以及分成哪些簇。比如电子商务网站根据用户的信息及购买习惯投放相应的广告。
经验只能是那些对学习有用的信息,我们常常把反映事物内在规律的信息叫做特征。对于监督学习,我们所拥有的经验包括特征和目标\标记(Target\Label)。我们一般用一个特征向量来描述一个数据样本。标记或目标的表现形式则取决于监督学习的种类。
无监督学习没有标记或目标,因此无法进行预测,但是更加适合对数据结