机器学习入门
基础概念
1.机器学习是干什么的?
研究从数据中产生“模型”的算法,也就是“学习算法”。有了学习算法之后,我们将经验数据提供给它,他就能基于数据产生模型;在面对新的情况时,模型就会为我们提供相应的判断。
2.基本术语
- 属性(attribute)/特征(feature):反应事件或对象在某方面的表现或性质的事物,例如“色泽”“敲声”
- 属性值(attribute value):属性上的取值,例如“青绿”“乌黑”
- 属性空间(attribute space)/样本空间(sample space):属性张成的空间,例如我们把“色泽”“根蒂”“敲声”作为三个坐标中,则他们张成一个用于描述西瓜的三维空间,每个西瓜都可以在这个空间中找到自己的坐标位置,我们把这个坐标向量称为“特征向量”(feature vector)
- 示例/样本:关于一个事件或对象的描述,例如(色泽=乌黑,根蒂=蜷缩,敲声=浊响)
- 数据集(data set):多条事例或样本的集合,一般用D={x_1,x_2…x_m}表示包含m个示例的数据集,每个事例有d个属性描述,则每个示例x_i=(x_i1;x_i2;…x_id)是d维样本空间中的一个向量x_ij是x_i在第j个属性上的取值,d称为样本的维数(dimensionality)。
- 学