表示数据集的常用方法
表示数据集的常用方法是设计矩阵(design matrix)。
设计矩阵的每一行包含一个不同的样本。每一列对应于不同的特征。
例如,Iris数据集包含150个样本,每个样本有4个特征。这意味着我们可以将数据集表为设计矩阵 。
当然,每个样本都可以表示成向量,并且这些向量的维度相同,才能将一个数据集表示成设计矩阵。在许多情况下,存在着不同类型的异构数据,由于其向量的维度不同,无法表示为设计矩阵的形式。此时,不会将数据集表示成m行的矩阵,而是表示为M个元素的结合:
这种方式意味着和可以有不同的大小。