论文复现:用 CNN 进行文本分类

前一篇文章中我们学习了 CNN 的基础结构,并且知道了它是计算机视觉领域的基础模型,其实 CNN 不仅仅可以用于计算机视觉,还可以用于处理自然语言处理问题,今天就来看看如何用 CNN 处理文本分类任务。

文本分类就是根据文本的内容给句子或者文档打标签分类别,是自然语言处理领域中很基础的应用,前面学过的情感分析和垃圾邮件识别都属于文本分类任务。再比如主题标签、语言检测、意图识别,这些也都在社交媒体分析、品牌监测、客户服务上有广泛的应用。我们平常遇到的数据有 80% 是非结构化数据,而文本数据是最常见的类型之一,如果能够将社交媒体上的、网页上的、聊天对话中的有用信息提取出来,那么会带来很高的应用价值。

既然是分类问题,那么在情感分析那一章中提到的很多算法都是可以尝试的,Naive Bayes、Support Vector Machines、RNN,还有今天要讲的 CNN。

CNN 在处理文本任务上有什么优势

前面一篇文章中我们介绍了 CNN 的基础,在 NLP 领域中 CNN 比较适合分类任务,因为将卷积用于文本任务可以保持数据的空间特征,相比而言,对于 POS 这种需要局部信息的任务简单的 CNN 就不会有很大优势。

对于分类任务,例如在一个情感分析任务中,有这样两句话:

  • I like the movie, not too bad
  • I did not like the movie, bad

假设卷积窗口长度为 5,则第一句话的卷积窗口经过的区域是:

  • [I, like, the, movie, ','],这句话大概率会被识别成情感标签为正
  • [like, the, movie, ',', n
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值