A Chapter-Wise Understanding System for Text-To-Speech in Chinese Novels

  • 会议:icassp 2021
  • 作者:Junjie Pan
  • 单位:Bytedance AI-Lab

abstract

  • 小说TTS,包含多角色配音以及情感配音。传统的TTS时间久了听者疲劳,如果手动标记角色和情感,然后用multi-speaker emotional TTS合成,但是这样做成本很高。
  • 本文提出一个中文小说章节分析的系统,自动的预测speaker和emotion,然后进行TTS。
  • 创新点更多是引入一些NLP的算法,并结合任务进行模型改进,完成小说语音合成的任务。

background

  • 小说文本的理解主要包含说话人的确认以及情感分类。其中说话人确认又可以分为人物命名识别(PerNER),多方对话的身份确认(Speaker identification of dialogues,SID),以及指代消除(co-reference resolution ,CoRef)。
  • PerNER:针对小说文本任务对实体识别(NER)的改进,只需要识别person name和titles,会简化标注工作,但是会使得标签稀疏化,PerNER性能下降。
  • SID:新闻和话剧文稿中,定位对话对应的说话人比较容易(因为有says, claims这样的显式关键字标记),但是小说里会比较隐式。因此,本文中的SID被当作ranking task处理,在所有可能的说话人中排序。
  • CoRef:和SID一样,多任务分类的解决方案不是很合适。使用两阶段的ranking。
  • 情感分类:根据Plutchik’s Wheel of Emotions的分类,将情绪分成8种大类,每个类别再按照强弱程度分成3种粒度。本文选用7种情感(neutral, happy, anger, disgust, sadness, surprise, fear),并且使用了长文本特征。

method

因为数据集小&标注工作困难,不能使用预训练的大模型(比如BERT),而是使用statistical machine learning models或者相对简单的NN网络。

speaker determination

在这里插入图片描述

  • PerNER:transformer-based model,输入character embedding,经由CRF 输出层,预测BMEIO tags。

    • 数据增广策略:(1)说话人的名字用命名字典中的其他人进行随机替换;(2)替换说话人的family name(姓);(3)人物的title用title字典中的其他称呼随机替换;(4)unlabel parts拆分成单词,然后通过同义词or反义词字典中的其他单词进行替换。
  • BMEIO:B, M, and E represent the begin, middle and end of a person appellation. I represents a single character forming an appellation. O represents a non- appellation character.

  • SID:决策树模型,输入是5句话(中间的是target sentenc)得出的可能的称谓appellations,计算每一个称谓11-d特征的距离。然后按照和target dialogue的距离从小到大排序。
    在这里插入图片描述

  • CoRef:定义两种称谓,主称谓和辅助称谓。主称谓是指家族姓,是一段中出现三次以上的,或者最高频的两个称谓。其余的称谓被定义为辅助称谓。所有候选名称都分配给最可能的主名称。 然后将主要名称分配给另一个最可能的主要名称或本身。然后将主名称作为每个链中的根节点生成co-reference chains。
    使用GBST模型,输入特征如下表,C是current candidate name,T是 closest target primary name to the C。

在这里插入图片描述
在这里插入图片描述

Emotion Classification

  • 一层256-units的LSTM,7-units dense layer
  • 输入:300-d的 word embedding+句子index和positional embedding,其中word的挑选过程:前一句+当前句+后一句(按照单词切分),根据情感字典从3句话中挑选出吧最多25个emotional words,转换成300-d的 word embedding。每个字加上句子index和positional embedding。
  • 使用这个公式去得到top 8000 emitional words组成字典
    在这里插入图片描述
    NLP系统的准确率、召回率、F1-score
    在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值