自然语言处理（五）：字符级卷积神经网络char-cnn理解

最新推荐文章于 2024-05-25 09:56:34 发布

悠哉的咸鱼

最新推荐文章于 2024-05-25 09:56:34 发布

阅读量1.1k

点赞数

分类专栏：自然语言处理文章标签：神经网络 cnn 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42939752/article/details/119943270

版权

自然语言处理专栏收录该内容

8 篇文章 1 订阅

订阅专栏

论文名称：Character-level Convolutional Networks for Text Classification
论文地址：https://papers.nips.cc/paper/2015/file/250cf8b51c773f3f8dc8b4be867a9a02-Paper.pdf

一、背景

对于语言的输入，按照我们之前的做法是将词汇embedding成词向量。该做法的优缺点如下：

优点：

1、充分考虑了单词的内部信息，比如“love”和"like"作为近义词，生成的词向量会更为相似。
2、因为词汇embedding后包含的信息较多，所以构建模型时不需要大量的训练数据。

缺点:

1、需要考虑到文本的内部语法信息。
2、当单词出现拼写错误时，该部分无法进行有效训练。
3、陌生字符和语言无法进行有效理解。

考虑到词向量的缺点，论文参考传统卷积神经网络直接对像素点处理的原子操作，提出一种以字符作为输入然后卷积的处理方法（例如“word”不转化成单一词向量，而是分为“w”、“o”、“r”、“d”四个字符，再将每个字符分别转为one-hot编码）。

二、处理方法

1、输入数据预处理
我们先将字符进行one-hot编码，对于英文文章我们抽取70个常见字符（其它语言可以另外抽取，比如中文使用拼音，等等）：

abcdefghijklmnopqrstuvwxyz0123456789
-,;.!?:’’’/\|_@#$%ˆ&*˜‘+-=<>()[]{}

将这些字符onehot编码，在文章中出现非70个字符或空格，则将其编码设置为全0(长度为70，内容全0的列表）。
2、卷积操作
经过第一步，我们已经有了长度为70的hon-hot字符编码。我们知道卷积神经网络输入的长宽固定，所以我们设置另外一个维度为1024（1024能包含一篇文章的大部分内容，长度不够1024的文章我们做空格填充），即我们输入的词矩阵的长x宽为:1024x70。
此时已经可以做正常的卷积操作，神经网络结构如下所示：
在这里插入图片描述
结论：对于大规模数据，字符级卷积正确率更高，而且此时不再需要考虑语法因素。论文也使用了同义词替换进行数据增广的方法，有效提高了准确率。

悠哉的咸鱼

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
自然语言处理（五）：字符级卷积神经网络char-cnn理解

论文地址：https://papers.nips.cc/paper/2015/file/250cf8b51c773f3f8dc8b4be867a9a02-Paper.pdf一、背景对于语言的输入，按照我们之前的做法是将词汇embedding成词向量。该做法的优缺点如下：优点：1、充分考虑了单词的内部信息，比如“love”和"like"作为近义词，生成的词向量会更为相似。2、因为词汇embedding后包含的信息较多，所以构建模型时不需要大量的训练数据。缺点:1、需要考虑到文本的内部语法信
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。