参考书籍:《机器学习:算法原理与编程实践》郑捷著
对象与维度
在面向对象程序设计中,对象就是一个类的实例。在机器学习中,对象与之类似。
对象指含有一组特征的行向量。
实例 | 种属 | 重量(平均) | 颜色 | 生命周期 |
---|---|---|---|---|
非洲象 | 动物 | 5t | 土灰色 | 70年 |
大白鲨 | 动物 | 3.2t | 灰白色 | 70年 |
苹果 | 植物 | 250g | 红色 | 5~15天 |
梨 | 植物 | 300g | 黄色 | 5~10天 |
如上表所示,第一行表示特征名称,所有特征组合在一起构成特征向量。为了区分线性代数中的特征值和特征向量,引入了对象这一名称。每一对象对应表中的一行数据(行向量),行向量的数量即是对象的维度。
向量化
- 在实际计算中,除非特殊情况,特征名称不需要列明。通过一些转换,将表中的数据数字化,转换成矩阵的表示方式。
- 图片数据集整张图被当做一行货一个对象,所以维度都比较高。
- 文本类数据集需要先构造(Big-of-words)词袋列表,将每个词出现的词频数值化。再利用词袋列表分别将文本向量化,其中0表示该词没有出现过,1表示出现过一次,n表示出现过n次。
矩阵
对象是表中的元素,表是对象的集合。
- 矩阵是具有相同特征和维度的对象的集合,表现为一张二维数据表。
- 一个对象表示为矩阵中的一行,一个特征表示为矩阵中的一列,每个特征都有数值型的取值。
- 矩阵中的对象既相互独立又相互联系
- 矩阵空间应具有完整性,即能反映出事物的空间形式或变化。
分类、聚类和回归
- 分类或聚类可以看作根据对象特征的相似性与差异性,对空间矩阵的一种划分。
- 预测与回归可以看作根据对象在某种序列(时间)上的相关性,变现为特征取值变化的一种趋势。
矩阵的用途
- 解线性方程组:二维矩阵可以看作平面直角坐标系中的点,通过计算点间的距离,完成聚类、分类或预测。
- 方程降次:利用矩阵的二次型,通过升维将线性不可分的数据集映射到高维中,转换为线性可分。这也是支持向量机的基本原理之一
- 变换:矩阵可以通过特征值和特征向量完成维度约简,简化图片数据集这种高维数据集的运算,主成分分析使用的就是这个原理。