一些研究成果介绍
1、Punctuation Prediction for Unsegmented Transcript Based on Word Vector
这篇为每一个词打标签,这个标签代表这个词后的标点符号类型。如下图所示,输入用5个词来预测5个词中间那个词的标点符号类型,使用了GloVe词向量进行词嵌入。
作者运用了两个CNN模型分别是CNN-1和CNN-2。一个是一维卷积,一个二维卷积。
2、Distilling Knowledge from an Ensemble of Models for Punctuation Prediction
这篇用DNN,T-BRNN,BLSTM+CRF 的集成作为Teacher model,普通的DNN作为Student model 来进行知识蒸馏。模型结构如下:
3、Self-Attention Based Network for Punctuation Restoration
这篇使用了生成式的方法,基于Transformer进行预测。结构与Transformer非常相似,仅在decoder输出层部分有改动。decoder的时候 先判断L