文本分类和序列标注“深度”实践

最新推荐文章于 2022-12-13 21:17:04 发布

VIP文章 PaperWeekly

最新推荐文章于 2022-12-13 21:17:04 发布

阅读量1.4k

点赞数 1

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/104725587

版权

©PaperWeekly 原创 · 作者｜周晓江

研究方向｜文本分类、文本聚类

本文的主要目的是推广 UNF 代码库，该代码库由笔者在实际工作中做文本分类和序列标注的相关经验抽象而来，欢迎 fork 和交流。

项目地址：https://github.com/waterzxj/UNF

全文分三部分，第一部分是相关动机，介绍这个项目为什么会出现；第二部分是理论分析部分，通过近些年一些顶会论文来简要梳理文本分类和序列标注两个任务的发展脉络；第三部分是实践部分，也是本文最重要的部分，会介绍笔者实现的一个通用代码库，方便实现上述理论部分的模型，并且提供基础组件方便应用者做二次开发，详细的介绍会放到实践部分介绍。

项目动机

文本分类和序列标注是入门 NLP 最好的两个任务，覆盖了常用 NLP 任务的流程，因此掌握了这两个任务，也能方便的拓展到其他任务。

笔者搜索了网上这两个任务相关的项目，发现一个痛点：项目太单一，不够系统化，这里的系统化是说涵盖理论介绍，高效的算法实现，到工程化的 server 以及可视化 web 界面（通常一个算法从研究到落地必经的几个环节）。于是，笔者决定自己动手解决这一痛点。

理论分析

文本分类相关理论

这部分将通过 6 篇顶会论文，简要介绍文本分类领域是如何从最初的浅层的 CNN 发展到深层的 CNN，到如何在 LSTM 中有效结合 attention 结构，再到结合 label-embedding 的 zero-shot 文本分类，最后是当下比较火的基于 transformer 的文本分类。因为本文的重点是工程实践部分，所以详细的论文介绍读者可以直接参考原 paper。

论文标题：Convolutional Neural Networks for Sentence Classification

论文链接：https://arxiv.org/abs/1408.5882

源码链接：https://github.com/yoonkim/CNN_sentence

TextCNN 分类算法的核心架构如上图表示所示。算法通常通过四步完成：

将原始的 one-hot 文本经过 word embedding 变成稠密的向量表示；
经过一层 1 维的卷积层，可选择多个 filter，每个 filter 表示一个特征；
对上一步得到的每个卷积向量做 max-pooling 操作，最后每一个卷积得到一维向量，把所有的 max-pooling 结果 concat 起来，最终得到句子的向量表示；
将句子向量经过一层全连接层，然后过 softmax-loss。