Python微信订餐小程序课程视频
https://edu.csdn.net/course/detail/36074
Python实战量化交易理财系统
https://edu.csdn.net/course/detail/35475
Paper Information
Title:Fast Multi-Resolution Transformer Fine-tuning for Extreme Multi-label Text ClassificationAuthors:Jiong Zhang, Wei-Cheng Chang, Hsiang-Fu Yu, I. DhillonSources:2021, ArXivOther:3 Citations, 61 ReferencesPaper:downloadCode:download
1 背景知识
训练集 {xi,yi}Ni=1{xi,yi}i=1N\left{\mathbf{x}_{i}, \mathbf{y}_{i}\right}_{i=1}^{N} ,xi∈Dxi∈D\mathbf{x}_{i} \in \mathcal{D} 代表着第 iii 个文档,yi∈{0,1}Lyi∈{0,1}L\mathbf{y}_{i} \in{0,1}^{L} 是第iii个样本的第 ℓℓ\ell 个标签。
eXtreme Multi-label Text Classification (XMC) 目标是寻找一个这样的函数 f:D×[L]↦Rf:D×[L]↦Rf: \mathcal{D} \times[L] \mapsto \mathbb{R},f(x,ℓ)f(x,ℓ)f(x,\ell) 表示输入 xxx 与标签 ℓℓ\ell 之间的相关性。
实际上,得到 top−ktop−ktop-k 个最大值的索引作为给定输入 xxx 的预测相关标签。最直接的模型是一对全(OVA)模型:
f(x,ℓ)=w⊤ℓΦ(x);ℓ∈Lf(x,ℓ)=wℓ⊤Φ(x);ℓ∈Lf(\mathbf{x}, \ell)=\mathbf{w}_{\ell}^{\top} \Phi(\mathbf{x}) ; \ell \in[L]\quad\quad\quad(1)
其中
-
- W=[w1,…,wL]∈Rd×LW=[w1,…,wL]∈Rd×L\mathbf{W}=\left[\mathbf{w}_{1}, \ldots, \mathbf{w}_{L}\right] \in \mathbb{R}^{d \times L} 是权重向量
- Φ(⋅)Φ(⋅)\Phi(\cdot) 是一个文本向量转换器,Φ:D↦RdΦ:D↦Rd\Phi: \mathcal{D} \mapsto \mathbb{R}^{d}用于将 xx\mathbf{x}转换为 ddd 维特征向量
- W=[w1,…,wL]∈Rd×LW=[w1,…,wL]∈Rd×L\mathbf{W}=\left[\mathbf{w}_{1}, \ldots, \mathbf{w}_{L}\right] \in \mathbb{R}^{d \times L} 是权重向量
为了处理非常大的输出空间,最近的方法对标签空间进行了划分,以筛选在训练和推理过程中考虑的标签。特别是 [7, 12, 13, 34, 35, 39] 遵循三个阶段的框架:par