几个基本概念
数据
数据时对现实世界的现象的观测
任务
收集数据的目的是因为有些问题需要靠数据找出答案
由数据得到答案的过程有着复杂的路径,但是这个过程包括两个构成机器学习基础的数学实体:模型 和 特征
模型
数据的数学模型描述了数据不同部分之间的关系。
例如股票价格的模型可以是一个公式,它将公司的收入历史、过去的股票价格和行业映射为预测的股票价格。
数学公式将数值型的变量联系起来,但原始数据经常不是数值型。
(例如,爱丽丝在星期三购买了《指环王》三部曲这一行为就不是数值型的,她随后对这本书发表的评价也不是数值型的)
必须有个东西将这二者联系起来,这就是特征的用武之地。
特征
特征是原始数据的数值表示,有多种方法可以将原始数据转换为数值型的表示,所以特征可以有多种形式。
特征也和模型相关联,有些模型更适合使用某种类型的特征,反之亦然。
特征工程就是在给定数据、模型和任务的情况下设计出最合适的特征的过程。
特征的数量也非常重要,如果没有足够的有信息量的特征,那么模型将不能完成最终的任务。
如果特征过多,或者多数特征不适合,那么模型将很难训练而且成本高昂
模型评价
特征和模型位于原始数据和我们想得到的知识之间。