【多音字消歧】g2pM

g2pM: A Neural Grapheme-to-Phoneme Conversion Package for Mandarin Chinese Based on a New Open Benchmark Dataset
时间:submitted to interspeech 2020
单位:Kakao Brain(韩国)
Open source dataset:
数据集构建:从维基百科中爬下来的句子,去除了太长的(>50字)和太短的(<5字)。只保留了句子中只有一个多音字的句子,因此每个句子中有且仅有一个多音字。
数据集划分:Trainset: 79117条句子,Testset: 10254条句子,Devset: 9893条句子。
三个子集都包括623个多音字,876个发音。

Benchmark:
模型结构:一层64维的embedding,一层64个节点的Bi-LSTM,两层全连接64个节点,还有最后一层全连接876个节点。
模型参数:477k
模型大小:1.7M
效果:在test集的表现超过了市面上的api,仅稍次于Chinese Bert(100多M的大模型)。
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值