4 Model Architecture
我们的模型是由一个层次的LSTM共享编码网络构成,输出送入到一组特定领域的分类层次训练使每个输出标签二进制决策。
我们的主要贡献是使用个性化的注意力机制扩展这个架构。个性化的注意力机制使用注意力机制致力于记忆用户选择的特定领域,允许系统学习各个领域的语义表示通过领域的词嵌入。我们将展示,结合个性化功能是消除多个重叠领域的关键,并且个性化的注意机制优于朴素形式的个性化。个性化的注意力机制首先计算每个启动领域的注意力权重,然后执行一个凸组合(可以理解为加权相加)计算出来一个相关的向量,然后在进入领域分类器前把这个向量拼接在编码的句子中之后。
我们的模型可以有效是适应新的不在初始训练中的领域,通过锁定共享编码器。基于现有的领域的嵌入形式,优化一小部分对应的特定领域的分类网络参数,这是更快和更高校的方法比重新训练全领域分类器。
我们的设计确保足够低的内存占用和脚本延迟。在输入和输出阶段,我们避免了昂贵的大词汇矩阵乘法,而是在输入阶段使用字符嵌入和字嵌入的组合。输出矩阵是轻量级的因为每个特定领域的分类是一个只有201×2参数矩阵。这个推理任务可以在内核并行执行,因为并不需要计算高维的softmax分层函数,这通常是神经系统中最慢的部分。我们得到概率得分之间的相似性,通过用户个性化的损失函数个体模型产生。