label获取listbox选中的文本_文本分类中的label embedding

31c1123a1e359142865be860dee9188f.png

在云栖大会上,听到了小蜜的老师分享的。关于意图识别,提到了match的方法,用的label embedding,不太了解,整理一下

b80af88dad5ddcc4e7dfee9df368a315.png

0a224dc211de7f8d62018007ee055089.png

这里的label embedding, 指的是,将一个label下的样本归纳成一个向量,新的预测样本,encode之后,与这个向量去计算一个score,最后得到该样本的predict label。

label embedding相关论文

  1. Joint Embedding of Words and Labels for Text Classification
https://arxiv.org/pdf/1805.04174.pdf​arxiv.org

1.1 contributions:

  1. 对于后面的分类任务提供了更多的信息量。
  2. 保留了模型的可解释性,尤其是当label description是有意义的
  3. 设计的attention 机制具有较少的参数。相对于其他复杂的deep attention model.
  4. sota
  5. 副产物。在医疗文本上可以突出预测信息的关键词。减少阅读的负担

1.2 Architecture

aa10eee5fe84cf72ab001db40b5a1fc5.png

在这篇文章里面,把文本分类分为3个阶段。 f = f0 * f1 * f2

f0对应的是encoder ,text -> embedding

f1 对应的是aggregation , 将matrix feature -> vector feature

f2 对应的是classifier, 映射成label

传统的分类结构上,只有最后一个阶段f2, 才会利用到label information, 见上图a,

最后输出的y, logit的每一个位置的值, 相当于,z * 对应位置的class_embedding得到。

这篇文章的重心在于,传统的aggregation的时候,直接进行pooling或者attention等方式,此处利用label信息学习到label embedding 作为anchor points去影响word embedding,并进行aggregation

0d6a1e0bd7307dc8af59b3d2ca7d900c.png

c表示text embedding , v表示 label embedding, 利用cosine similarity来衡量label-word的相关。

为normalization matrix, 每个元素为

a4ff10896e7c41338196b228951fec62.png

为了更好的获取连续字之间的相对空间信息,引入了非线性, 使用的 卷积+relu。 ul 为每个word和k个label的相似度向量

00cefb9edfc749d3fc1c13cba62f1a1c.png

m的维度与text的长度一致。

58dac7468d39ad2c9971a091e1480f2c.png

0399807a51e6a5600cbd4b87c41631cd.png

最后aggregation到vector, 映射到num class大小

2.3 results

b7fbc9fab9c10fd43f24d16171581970.png

模型比较简单,参数量少

78326016cc36456f7d593ab535f7eea8.png

class 较多且 label有明确含义的字表现会比较好

2. Multi-Task Label Embedding for Text Classification

https://www.aclweb.org/anthology/D18-1484​www.aclweb.org

2.1 contributions:

  1. 提供了一个将label映射成一个vector, 有效的利用了标签信息
  2. 方便的应用到新的任务上
  3. 当训练了几个相关的任务,针对新的task, 不需要训练,直接就可以用就能获得一个比较好的效果
  4. sota in several datasets

2.2 hot update & cold update & zero update

hot update: 在历史训练的k个task的基础上,finetune

cold update: 在所有的task上重新训练

zero update: 不更新模型。利用历史训练的模型在新task上predict

2.3 Architecture

061d1d483269b1e93a291f614cd83130.png

包含3个部分。 input encoder , label encoder, matcher

encoder将文本编码成一个定长的vector

具体结构如下

e16f5e54a8ccb8be025499a7026e32c8.png

2bbd1dc7e39086ae155a890d4fd9063c.png

text -> embedding -> bi_lstm -> vector

b8ccc712a98f6d7818b20db059cbc53b.png

text和label的特征concat之后直接映射到1。

多个task的训练方式,是一个epoch里面随机选择一个task的batch更新参数。

2.4 results

0d2509ba1f9024bdc99489946df16a5b.png

3. Explicit Interaction Model towards Text Classification

https://arxiv.org/pdf/1811.09386.pdf​arxiv.org

3.1 传统的分类结构,文中成为encoding based methods:

2893fc0a6186ca5013c8aff740f94c66.png

在最后的分类层上。利用文本的表示的vector * class representation 得到对应位置的logit, 这样文本的概率很大概率取决与整体的匹配,而忽略了字级的匹配。

3.2 Architecture

ba1e82c753357fc2586810291d0eddf6.png

包含3个模块, encoder, 使用 gru/region embedding, interaction模块,计算每个字与每个class的交互,aggregation, 得到最终的分类class

f1453a735cb7dcd7911f467bbb2d08f9.png

T为label embedding , H 为text的hidden feature.

519cb3f7ce8abe8c8616bf5f04506f14.png

这篇文章的重心在于,text中word 与class之间的交互。

3.3 result

5635cfc3f76130bdabf4bc2701e2e557.png

e536b0284f2d192e0c84bf8f0fdc598c.png

99bc3eba0bcb61662b979b7d026b7ce8.png

table3中的EXAM encoder是没有word class交互的encoding based model.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值