数据挖掘与机器学习基础:数据矩阵解读
在数据挖掘和机器学习领域,数据的表示和理解是基础且关键的环节。本文将深入探讨数据矩阵的相关概念,包括其基本结构、属性分类、代数与几何视角以及概率视角,帮助大家更好地理解数据的本质和特征。
1. 数据矩阵
数据常常可以抽象为一个 (n×d) 的数据矩阵,其中 (n) 表示行数,对应数据集中的实体;(d) 表示列数,代表属性或感兴趣的特征。每一行记录了一个实体的属性值。数据矩阵可以表示为:
[
D =
\begin{pmatrix}
X_1 & X_2 & \cdots & X_d \
x_1 & x_{11} & x_{12} & \cdots & x_{1d} \
x_2 & x_{21} & x_{22} & \cdots & x_{2d} \
\vdots & \vdots & \vdots & \ddots & \vdots \
x_n & x_{n1} & x_{n2} & \cdots & x_{nd}
\end{pmatrix}
]
其中,(x_i) 是第 (i) 行,为一个 (d) 元组 ((x_{i1}, x_{i2}, \cdots, x_{id}));(X_j) 是第 (j) 列,为一个 (n) 元组 ((x_{1j}, x_{2j}, \cdots, x_{nj}))。
行数 (n) 称为数据的规模,列数 (d) 称为数据的维度。对单个属性的分析称为单变量分析,同