【论文阅读 Validation Free and Replication Robust Volume-based Data Valuation】

最新推荐文章于 2024-08-17 15:35:20 发布

我就是菜鸡1229

最新推荐文章于 2024-08-17 15:35:20 发布

阅读量761

点赞数 14

文章标签：论文阅读

本文链接：https://blog.csdn.net/qq_45467608/article/details/136958151

版权

论文题目

免验证的对于复制鲁棒性的基于量的数据估值

1. 本文具体贡献

通过数据的体积形式化了数据多样性的度量，并在理论上和实证上证明了体积对数据估值的适用性；
形式化了复制鲁棒性的概念，并设计了一种基于稳健体积（RV）度量的数据估值方法，并在理论上保证了复制鲁棒性
与基线方法进行了广泛的实证比较，以证明我们的方法在无需验证的情况下具有一致的估值结果，具有复制鲁棒性，并且可以灵活地适应处理诸如各种神经网络等复杂的机器学习模型

2. 问题设置和符号（想要看懂的话认真看）

考虑两个带估值的数据子矩阵 $X_S$ 和 $X_{S'}$ ,分别包含了 $s$ 和 $s^{'}$ 行的d维输入特征向量。
设 $P_S :=[X^T_S 0]^T \in \mathbb R^{n \times d}$ 是 $X_S \in \mathbb R^{n \times d}$ 的零填充版本。
我们沿着行将数据子矩阵连接起来形成完整的数据矩阵 $X_S \in \mathbb R^{n \times d},i.e.,X := [X^T_S X^T_{S'}]^T$ 并且 $n = s + s^{'}$ (别担心，这里的T是转置矩阵，用两个T是为了验证行进行拼接)
我们将对应的标签表示为： $y:=[y^T_Sy^T_{S'}]\in \mathbb R^{n\times 1}$
OLS的最小二乘解为：
$w:=X^{+}y=argmin_\beta||y-X\beta||^2$
$X^{+}:=(X^TX)^{-1}X^T$ 是 $X$ 的伪逆
相似的，我们用 $X^+_S$ 作为 $X_S$ 的伪逆, $w_S:=X^{+}_Sy_S$
同时为了简化公式：令 $V := V o l (X)$ 和 $V_S := Vol(X_S)$
Vol()的定义如下， $∣ A ∣ 代表 A 的行列式$ ，X的左Gram矩阵为 $G:=X^TX\in \mathbb R^{d\times d}$ ,所以对于数据子矩阵 $X_S$ ， $G_S:=X^T_SX_S\in \mathbb R^{d\times d}$

Definition 1 (Volume). 对于一个满秩的矩阵 $\in \mathbb{R}^{n \times d}$ ，其中 $\geq d$ ，定义其体积为 $\sqrt{|(X>X)|} = \sqrt{|G|}$ 。我们采用上述对体积的定义有以下几个原因：
(a) 通常，数据的输入特征空间是由数据收集过程中预先确定和固定的。但是，新的数据可以不断涌入，因此 $n$ 可以无限增长，而 $d$ 保持不变。
(b) 通过利用体积与学习性能之间的形式联系（第3节），我们可以设计一个无需验证的基于体积的数据估值方法，将更大的价值分配给导致更好学习性能的数据。
© 这为体积和多样性之间提供了直观的解释：向数据集添加一个数据点可以增加多样性/体积，具体取决于数据集中已有的数据点（引理1）。

在实践中，我们进行预处理，比如主成分分析，以减少输入特征空间的维度，以确保这一假设得到满足。这一假设是为了确保没有冗余特征，即可以使用其他特征进行精确重构的特征。例如，如果数据集已经包含了月薪，那么年薪将是冗余的。

概念性讲解

OLS（Ordinary Least Squares，普通最小二乘）

OLS是一种常用的线性回归方法，用于拟合线性模型到数据中。在OLS中，我们试图找到一组系数，使得模型的预测值与实际观测值之间的残差平方和最小化。
对于给定的数据集，假设有一个包含n个样本的数据矩阵X，其中每行表示一个样本，每列表示一个特征。同时，有一个长度为n的目标向量y，表示每个样本的观测值。
OLS的目标是找到一个系数向量w，使得模型的预测值 $X_w$ 与观测值y之间的残差的平方和最小化。数学上，这可以表示为以下最小化问题：
$w_{OLS}=arg_wmin||y-Xw||^2_2$

向量的二范数

向量的二范数，也称为欧几里得范数（Euclidean Norm），是指向量中各个元素的平方和再开方得到的结果。对于一个n维向量v，其二范数表示为：
$||v||_2=\sqrt{v^2_1+v^2_2+...+v^2_n}$

伪逆

伪逆（Pseudoinverse）是一种广义逆的概念，在线性代数和矩阵计算中经常用到。伪逆是针对非方阵或奇异矩阵的情况而提出的，因为对于这些矩阵来说，它们没有逆矩阵。
广义逆有几种不同的定义，其中最常见的是 Moore-Penrose 广义逆。给定一个矩阵 $A$ ，它的 Moore-Penrose 广义逆通常表示为 $A^+$ 。广义逆满足以下四个性质：
$\begin{align*} AA^+A &= A \\ A^+AA^+ &= A^+ \\ (AA^+)^T &= AA^+ \\ (A^+A)^T &= A^+A \end{align*} ]$

3 更大的数据量意味着更好的学习性能

通过普通最小二乘（OLS）框架来正式化这一说法。具体来说，我们将研究两个学习性能的度量指标
(a)由偏差表示的伪逆质量 $bias_S:=||P^+_S-X^+||$ ,因为准确估计 $X^+$ 对于达到较小的均方误差（MSE）是重要的,其中 $P^+_S:=(X^T_SX_S)^{-1}P^T_S$
(b)作为MSE表示的均方误差: $L(w_S):=||y-Xw_S||^2$

3.1 更大量的数据意味着更小的偏差

命题1(数据量VS偏差对于d=1)。对于 $\in \mathbb R^{n\times 1}$ 的非零 $X_S,X_{S'}$ ,有 $V_S\ge V_{S'} \Longleftrightarrow bias_S-bias_{S'} \le 0$

命题2（一般情况下的体积 vs. 偏差）。对于 $\in \mathbb{R}^{n \times d}$ 的满秩的 $X_S$ 、 $X_{S'}$ ，有
$\begin{align*} &bias^2_S - bias^2_{S'} \\ &= \frac{1}{V^4_S} \left\| Q_S X^T_S \right\|^2 - \frac{1}{V^4_{S'}} \left\| Q_S' X^T_{S'} \right\|^2 \\ &\quad + 2 \left\langle \frac{1}{V^2} QX^T, \frac{1}{V^2_{S'}} Q_{S'} P^T_{S'} - \frac{1}{V^2_S} Q_S P^T_S \right\rangle \end{align*}$
其中
$\begin{align*} Q &:= \sum_{l=1}^{k}(\lambda_l\sigma_l)^{-1} \prod_{j=1,j \neq l}^{k}(G - \lambda_j I), \\ \{\lambda_l\}_{l=1}^{k} &\text{ 表示矩阵 } X \text{ 的左 Gram 矩阵 } G \text{ 的 } k \text{ 个唯一特征值}, \\ Q_S, Q_S' &\text{ 相应地定义于 } G_S, G_S', \\ P_S \text{ 和 } P_S' &\text{ 分别是 } X_S \text{ 和 } X_S' \text{ 的零填充版本}, \\ \sigma_l &:= \sum_{g=1}^{k}(-1)^{g+1}\lambda_{k-g}^{l} \left[ \sum_{H \subset \{1,...,k\}\setminus \{l\},|H|=g-1} \left( \prod_{h \in \{1,...,k\}\setminus H} \lambda_h^{-1} \right) \right]. \end{align*}$

本文通过经验验证结论第3节的方法，检验第3.1节最后一段描述的附加假设是否成立，即通过检查 $V_S\ge V_{S'} \Longleftrightarrow bias_S-bias_{S'} \le 0$ 成立的百分比次数。
实验设置如下：
在500次独立试验中随机且相同地抽样相同大小的XS、XS’，并计算更大的体积导致更好的学习性能的百分比（纵轴）与XS、XS’大小（横轴）的关系。
在这里插入图片描述

3.2 更大量的数据意味着均方误差越小

命题3（d = 1 时的体积 vs. 均方误差）。对于 $\in \mathbb{R}^{n \times 1}$ 的非零 $X_S$ 、 $X_{S'}$ ，有 $V_S \geq V_{S'} \Leftrightarrow L(w_S) - L(w_{S'}) \leq 0$ 。
不幸的是，以上结果不适用于d > 1的情况。