自然语言处理中的Character Embedding技术

最新推荐文章于 2024-02-22 00:37:50 发布

土豆洋芋山药蛋

最新推荐文章于 2024-02-22 00:37:50 发布

阅读量3k

点赞数 4

分类专栏：自然语言处理【NLP】文章标签：深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33414271/article/details/116146076

版权

在2013年的时候，Tomas Mikolov提出了word embedding技术来更好的表示一个单词的向量，也就是word2vec，在当时也获得了语法和语义相似度上最好的结果。之后关于doc2vec也被提出来，由此word和doc都有了相应的embedding的方法。如果换个角度想，在比word更细粒度的角度，还有character。这篇文章就来探讨关于character embedding的相关内容。

什么是character embedding？

《Text Understanding from Scratch. 2016. 》【引用量573】这篇文章提出了character CNN，他们发现字符的特征包含了提高模型性能的关键信号。这篇文章在时序卷积神经网络中，利用了字符级别的输入达到了文章抽象理解的效果。使用ConvNets在实体分类，情感分析和文本分类等大型数据集上进行检测。证明了，时间卷积网络可以在不了解人类语言的单词，短语，句法和任何其他句法或语义结构的情况下实现惊人的性能。

文中定义了70个字符，包括26个英文字母、10个数字、33个特殊字符和换行字符。

abcdefghijklmnopqrstuvwxyz0123456789 -,;.!?:’’’/|_@#$%ˆ&*˜‘±=<>()[]{}

在这里插入图片描述

另一方面，Google也发表了《Exploring the Limits of Language Modeling》文章【引用量906】，提出的模型包括256个向量&

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。