深入了解中文标点预测算法(一)

目前查找到的算法大多基于bert模型,对于bert模型进行微调,由于BERT论文中提供了序列标注的思路,所以单纯使用原论文的bert模型跑一下就可以得到比较满意的结果,目前我查找到的几个思路:

1、使用原论文中的bert模型

论文:
BERT:Pre-training of Deep Bidirectional Transformer for Language Understanding

2、使用bert模型+微调

项目:入口

思想:
在预训练的BERT掩码语言模型(BertForMaskedLM)的顶部添加了一个额外的线性层。BertForMaskedLM为每个(掩码)令牌输出一个logit向量。logit向量的大小为30522,与BERT token词汇表相对应。额外的线性层映射到可能的标点符号(比如:逗号,句点,问号和无标点)。

3、BiGRU+Attention

论文:
Bidirectional Recurrent Neural Network with Attention Mechanism for Punctuation Restoration

github:

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值