CNN之于CV和NLP

自然语言处理是对一维信号(词序列)做操作,计算机视觉是对二维(图像)或三维(视频流)信号做操作。不同:自然语言处理的输入数据通常是离散取值(例如表示一个单词或字母通常表示为词典中的one hot向量),计算机视觉则是连续取值(比如归一化到01之间的灰度值)。

 

为什么CNN用在CV上更得心应手,却不一定适合NLP?要看清这点就要理解CNN的原理。CNN有两个主要特点,区域不变性(location invariance)和组合性(Compositionality)

1. 区域不变性:滤波器在每层的输入向量(图像)上滑动,检测的是局部信息,然后通过pooling取最大值或均值。pooling这步综合了局部特征,失去了每个特征的位置信息。这很适合基于图像的任务,比如要判断一幅图里有没有猫这种生物,你可能不会去关心这只猫出现在图像的哪个区域。但是在NLP里,词语在句子或是段落里出现的位置,顺序,都是很重要的信息。

2. 局部组合性:CNN中,每个滤波器都把较低层的局部特征组合生成较高层的更全局化的特征。这在CV里很好理解,像素组合成边缘,边缘生成形状,最后把各种形状组合起来得到复杂的物体表达。在语言里,当然也有类似的组合关系,但是远不如图像来的直接。而且在图像里,相邻像素必须是相关的,相邻的词语却未必相关。

当然,还有些技术细节,CNN具体应用在CVNLP上会有些不同,就不赘述了。比如,滤波器的大小,在CV里滤波器一般覆盖一个局部的小区域,NLP会覆盖整个词汇向量的宽度,等等。。。那为什么最近很多项目把CNN用在NLP上取得了很好的结果?很多时候,理论上严格正确的模型在实际上不一定比理论不完整的模型更好用。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值