自然语言处理中的Character Embedding技术

在2013年的时候,Tomas Mikolov提出了word embedding技术来更好的表示一个单词的向量,也就是word2vec,在当时也获得了语法和语义相似度上最好的结果。之后关于doc2vec也被提出来,由此word和doc都有了相应的embedding的方法。如果换个角度想,在比word更细粒度的角度,还有character。这篇文章就来探讨关于character embedding的相关内容。

什么是character embedding?

《Text Understanding from Scratch. 2016. 》【引用量573】这篇文章提出了character CNN,他们发现字符的特征包含了提高模型性能的关键信号。这篇文章在时序卷积神经网络中,利用了字符级别的输入达到了文章抽象理解的效果。使用ConvNets在实体分类,情感分析和文本分类等大型数据集上进行检测。证明了,时间卷积网络可以在不了解人类语言的单词,短语,句法和任何其他句法或语义结构的情况下实现惊人的性能。

文中定义了70个字符,包括26个英文字母、10个数字、33个特殊字符和换行字符。

abcdefghijklmnopqrstuvwxyz0123456789 -,;.!?:’’’/|_@#$%ˆ&*˜‘±=<>()[]{}

在这里插入图片描述

另一方面,Google也发表了《Exploring the Limits of Language Modeling》文章【引用量906】,提出的模型包括256个向量&

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值