深入了解中文标点预测算法（二）

最新推荐文章于 2023-12-12 20:00:08 发布

嗷呜酱

最新推荐文章于 2023-12-12 20:00:08 发布

阅读量1.1k

点赞数

分类专栏：项目实训记录日志文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39898307/article/details/106911496

版权

本文深入探讨中文标点预测的算法，包括基于词向量的CNN模型、模型集成的知识蒸馏方法及Transformer架构的自注意力网络。这些研究应用于未分词转录的标点预测，并在IWSLT和AI Challenger数据集上取得一定成果。

摘要由CSDN通过智能技术生成

一些研究成果介绍
1、Punctuation Prediction for Unsegmented Transcript Based on Word Vector
这篇为每一个词打标签，这个标签代表这个词后的标点符号类型。如下图所示，输入用5个词来预测5个词中间那个词的标点符号类型，使用了GloVe词向量进行词嵌入。

在这里插入图片描述

作者运用了两个CNN模型分别是CNN-1和CNN-2。一个是一维卷积，一个二维卷积。
在这里插入图片描述
2、Distilling Knowledge from an Ensemble of Models for Punctuation Prediction
这篇用DNN,T-BRNN,BLSTM+CRF 的集成作为Teacher model，普通的DNN作为Student model 来进行知识蒸馏。模型结构如下：

3、Self-Attention Based Network for Punctuation Restoration

这篇使用了生成式的方法，基于Transformer进行预测。结构与Transformer非常相似，

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深入了解中文标点预测算法（二）

一些研究成果介绍1、Punctuation Prediction for Unsegmented Transcript Based on Word Vector这篇为每一个词打标签，这个标签代表这个词后的标点符号类型。如下图所示，输入用5个词来预测5个词中间那个词的标点符号类型，使用了GloVe词向量进行词嵌入。作者运用了两个CNN模型分别是CNN-1和CNN-2。一个是一维卷积，一个二维卷积。2、Distilling Knowledge from an Ensemble of Models f
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。