A Chapter-Wise Understanding System for Text-To-Speech in Chinese Novels

林林宋

已于 2022-05-12 11:16:51 修改

阅读量323

点赞数

分类专栏： paper笔记文章标签：深度学习自然语言处理机器学习

于 2022-05-11 18:52:47 首次发布

原文链接：https://ieeexplore.ieee.org/abstract/document/9415078

版权

162 篇文章 24 订阅

订阅专栏

小说TTS，包含多角色配音以及情感配音。传统的TTS时间久了听者疲劳，如果手动标记角色和情感，然后用multi-speaker emotional TTS合成，但是这样做成本很高。
本文提出一个中文小说章节分析的系统，自动的预测speaker和emotion，然后进行TTS。
创新点更多是引入一些NLP的算法，并结合任务进行模型改进，完成小说语音合成的任务。

小说文本的理解主要包含说话人的确认以及情感分类。其中说话人确认又可以分为人物命名识别（PerNER），多方对话的身份确认（Speaker identification of dialogues，SID)，以及指代消除（co-reference resolution ，CoRef)。
PerNER：针对小说文本任务对实体识别（NER）的改进，只需要识别person name和titles，会简化标注工作，但是会使得标签稀疏化，PerNER性能下降。
SID：新闻和话剧文稿中，定位对话对应的说话人比较容易（因为有says, claims这样的显式关键字标记），但是小说里会比较隐式。因此，本文中的SID被当作ranking task处理，在所有可能的说话人中排序。
CoRef：和SID一样，多任务分类的解决方案不是很合适。使用两阶段的ranking。
情感分类：根据Plutchik’s Wheel of Emotions的分类，将情绪分成8种大类，每个类别再按照强弱程度分成3种粒度。本文选用7种情感（neutral, happy, anger, disgust, sadness, surprise, fear），并且使用了长文本特征。

因为数据集小&标注工作困难，不能使用预训练的大模型（比如BERT），而是使用statistical machine learning models或者相对简单的NN网络。

在这里插入图片描述

PerNER：transformer-based model，输入character embedding，经由CRF 输出层，预测BMEIO tags。
- 数据增广策略：（1）说话人的名字用命名字典中的其他人进行随机替换；（2）替换说话人的family name（姓）；（3）人物的title用title字典中的其他称呼随机替换；（4）unlabel parts拆分成单词，然后通过同义词or反义词字典中的其他单词进行替换。
BMEIO：B, M, and E represent the begin, middle and end of a person appellation. I represents a single character forming an appellation. O represents a non- appellation character.
SID：决策树模型，输入是5句话（中间的是target sentenc)得出的可能的称谓appellations，计算每一个称谓11-d特征的距离。然后按照和target dialogue的距离从小到大排序。
CoRef：定义两种称谓，主称谓和辅助称谓。主称谓是指家族姓，是一段中出现三次以上的，或者最高频的两个称谓。其余的称谓被定义为辅助称谓。所有候选名称都分配给最可能的主名称。然后将主要名称分配给另一个最可能的主要名称或本身。然后将主名称作为每个链中的根节点生成co-reference chains。
使用GBST模型，输入特征如下表，C是current candidate name，T是 closest target primary name to the C。

在这里插入图片描述

一层256-units的LSTM，7-units dense layer
输入：300-d的 word embedding+句子index和positional embedding，其中word的挑选过程：前一句+当前句+后一句（按照单词切分），根据情感字典从3句话中挑选出吧最多25个emotional words，转换成300-d的 word embedding。每个字加上句子index和positional embedding。
使用这个公式去得到top 8000 emitional words组成字典

NLP系统的准确率、召回率、F1-score

关注

专栏目录