这篇记录没啥用,这个论文我没看懂
Does Learning Require Memorization? A Short Tale about a Long Tail
发表时间:STOC 2020 (ACM SIGACT Symposium on Theory of Computing)
论文内容
研究问题
分类模型对训练数据的记忆是否必要。
Intuition
即使标签随机分配,模型也能达到很低的训练误差。这种不可预测的标签也能拟合,只有通过全部记住样本和它对应的标签。
具体分析
泛化误差:
err
P
(
h
)
=
err
S
(
h
)
+
(
err
P
(
h
)
−
err
S
(
h
)
)
\text{err}_P(h)=\text{err}_S(h) + (\text{err}_P(h)-\text{err}_S(h))
errP(h)=errS(h)+(errP(h)−errS(h))
- err p ( h ) \text{err}_p(h) errp(h)–泛化误差
- err s ( h ) \text{err}_s(h) errs(h)–经验/估计误差
- P P P–数据分布
-
S
S
S–训练集
通过模型复杂度或者算法稳定性近似。
应该是这个论文里最重要的一个结论:
err
‾
(
π
,
F
,
A
)
≤
(
o
p
t
)
(
π
,
F
)
+
τ
1
⋅
E
[
err
S
(
A
,
1
)
]
\overline{\text{err}} (\pi,\mathcal{F},\mathcal{A})\le \text(opt)(\pi, \mathcal{F})+ \tau_1\cdot \textbf{E}[\text{err}_S(\mathcal{A},1)]
err(π,F,A)≤(opt)(π,F)+τ1⋅E[errS(A,1)]
- err ‾ ( π , F , A ) \overline{\text{err}} (\pi,\mathcal{F},\mathcal{A}) err(π,F,A)是对算法 A \mathcal{A} A的期望泛化误差。
-
(
o
p
t
)
(
π
,
F
)
\text(opt)(\pi, \mathcal{F})
(opt)(π,F) 是任意算法最小可达误差。
什么意思。。。没懂
τ 1 : = E α ∼ π ‾ N [ α 2 ⋅ ( 1 − α ) n − 1 ] E α ∼ π ‾ N [ α ⋅ ( 1 − α ) n − 1 ] \tau_1:=\frac{\textbf{E}_{\alpha\sim \overline{\pi}^N}[\alpha^2\cdot (1-\alpha)^{n-1}]}{\textbf{E}_{\alpha\sim \overline{\pi}^N}[\alpha\cdot (1-\alpha)^{n-1}]} τ1:=Eα∼πN[α⋅(1−α)n−1]Eα∼πN[α2⋅(1−α)n−1]
π ‾ N \overline{\pi}^N πN平滑版本的 π \pi π。 π \pi π是类别频率边界分布。