【论文笔记】Character-Aware Neural Language Models

最新推荐文章于 2024-01-09 23:42:23 发布

Lawe

最新推荐文章于 2024-01-09 23:42:23 发布

阅读量2.9k

点赞数 2

分类专栏：论文笔记文章标签：神经语言模型 LSTM CNN

本文链接：https://blog.csdn.net/LAW_130625/article/details/78324950

版权

本文介绍了AAAI 2016年的一篇论文，提出了一种基于字符的神经语言模型，利用LSTM和CNN结合Highway Network，尤其适用于形态丰富的语言。实验表明，这种方法在减少参数的同时，能有效捕获语义和拼写信息，避免OOV问题，并在多个数据集上取得最佳结果。

摘要由CSDN通过智能技术生成

一、概要
该文章发于AAAI 2016，作者提出了仅建立在字符输入，预测在词水平上进行的一个神经语言模型（NLM）。当输入一个LSTM循环神经网络语言模型（RNN-LM）时，该模型在字符上启用了一个卷积神经网络（CNN），让该CNN的输出通过一个 Highway Network，使得效果得到进一步提升。该模型非常适用于形态丰富的语言上，因为其可以获取到丰富的语义和拼写信息。

二、模型方法
2.1 模型结构

这里写图片描述

如上图所示，该模型首先是character-level representation经过卷积神经网络，输入经过Highway network，然后再作为LSTM结果的输入，最后经过一个softmax输出概率。

2.2 Character-level Convolutional Neural Network

假设C为字符集合，d为character embeddings维度的大小，那么 $Q ∈ R^{d\cdot|C|}$ 为character embeddings矩阵，假设存在单词k由字符 $[c_{1}, . . . , c_{l}]$ 组成，其中 $l$ 为单词k的长度，那么单词k的 character-level representation可以表示为 $C^{k} ∈ R^{d\cdot l}$ ，第j列即代表单词中第j个字符的character embedding。
我们可以使用不同宽度的卷积核 $H ∈ R^{d×w}$ 和非线性函数对上面得到的character embedding获得feature map fk∈Rl−