在2013年的时候,Tomas Mikolov提出了word embedding技术来更好的表示一个单词的向量,也就是word2vec,在当时也获得了语法和语义相似度上最好的结果。之后关于doc2vec也被提出来,由此word和doc都有了相应的embedding的方法。如果换个角度想,在比word更细粒度的角度,还有character。这篇文章就来探讨关于character embedding的相关内容。
什么是character embedding?
《Text Understanding from Scratch. 2016. 》【引用量573】这篇文章提出了character CNN,他们发现字符的特征包含了提高模型性能的关键信号。这篇文章在时序卷积神经网络中,利用了字符级别的输入达到了文章抽象理解的效果。使用ConvNets在实体分类,情感分析和文本分类等大型数据集上进行检测。证明了,时间卷积网络可以在不了解人类语言的单词,短语,句法和任何其他句法或语义结构的情况下实现惊人的性能。
文中定义了70个字符,包括26个英文字母、10个数字、33个特殊字符和换行字符。
abcdefghijklmnopqrstuvwxyz0123456789 -,;.!?:’’’/|_@#$%ˆ&*˜‘±=<>()[]{}
另一方面,Google也发表了《Exploring the Limits of Language Modeling》文章【引用量906】,提出的模型包括256个向量&