文本分类通常分为两个阶段
- 文本特征提取
- 文本分类
在标准化形式中,类别仅代表了标签词汇表中的索引,模型缺乏关于分类内容的描述。
论文方法概述
论文提出了一个新的文本分类框架,其中每个类别标签都与一个类别描述相关联。描述是由手工制作的模板或使用强化学习的抽象/提取模型生成的。描述和文本的连接被提供给分类器,以决定是否应该将当前标签分配给文本。
文本分类任务: 将一个或多个类别标签分配给一个文本标记序列(情感分类、主题分类、垃圾邮件检测等)文本分类任务的这种标准形式化有一个内在的缺点:类别仅仅表示为标签词汇表中的索引,缺乏关于分类内容的明确说明。标签只能在监督信号反向传播到特征提取步骤提取的特征向量时影响训练过程。
文本中的类指示符,可能只是一两个关键词,可能被深埋在巨大的文本块中,使得模型很难从谷壳中分离出来。此外,不同类的信号可能会纠缠在文本中。
例如情感分类,一篇评论中可以包含对不同方面的情感表示,如clean updated room. friendly efficient staff . rate was too high.
论文提出了一个新的文本分类框架: 其关键点是将每个类与一个类描述关联起来,以便明确地告诉模型要分类什么。
例如:分类对一个酒店的描述内容是积极还是消极的,定义一个评价为 x = { x 1 , x 2 , . . . , x n } x=\left \{x_1, x_2, ... ,x_n \right \} x={
x1,x2,...,xn} ,论文方法将对酒店的描述和内容的评价进行结合 [ C L S ] p o s i t i v e l o c a t i o n [ S E P ] x [CLS]positive location[SEP]x [CLS]positivelocation[SEP]x
通过明确描述的分类内容(标签),迫使模型关注与标签相关的最显著的文本,这也可以被视为注意力。
该方法存在的难点与解决方案
这种方法的一个关键问题是如何获得类别描述,同时传统的方法存在一定缺点:
(1)预先定义每个类别的描述的人工量较大,特别是当类别数量较大时;
(2)模型性能对描述的构建方式很敏感,人工生成的模板可能不是最优的。
为了解决这个问题,我们提出使用强化学习来自动生成描述。描述可以以提取的方式生成,提取输入文本的子字符串并将其作为描述,或者以抽象的方式,使用生成模型生成标记字符串并将其作为描述。该模型以端到端方式进行训练,共同学习生成适当的类描述,并为文本分配正确的类标签。
文本分类任务
考虑一个文本序列 x = { x 1 , x 2 , . . . , x L } x=\left \{x_1, x_2, ... ,x_L \right \} x={ x1,x2,...,xL},其中L是文本序列的长度,每个x与一个类标签 y ∈ [ 1 , N ] y\in [1, N]