二语者英语韵律评估-CSDN博客

本文链接：https://blog.csdn.net/u013453936/article/details/100864687

最近写了一篇比较枯燥的简介，要有耐心看完哦。

评估二语者的英语一般从两个角度进行评估：1、音段内容2、超音段内容。其中音段内容主要包括音素、词语、句子的发音，超音段内容一般又称为韵律相关的内容。这篇博客将会从韵律角度讲述现有的二语者韵律反馈和评估方式。

韵律特征一般体现在音高、音强、发音时长等特征。这些特征可以由音频的基本参数表示。如音高，可由基频即F0表示，基频即当发声体由于振动而发出声音时，声音一般可以分解为许多单纯的正弦波，也就是说所有的自然声音基本都是由许多频率不同的正弦波组成的，其中频率最低的正弦波即为基音[1]。音强即发音能量，与振幅的平方成正比。发音时长即音素的发音时长，单词的发音时长，单词之间的静音时长等。这些特征由一些表现形式体现：1、重读2、停顿3、语调4、节奏感。其中，重读分为句重读和词重读。词重读一般和英文词表中的重读标注一致。句重读一般表示为句中需要强调的词。一般词可以分为实词与虚词，句重读一般强调实词如名词动词等，忽略虚词如介词副词等。句中最重读的单词称为句核，剩余一些重读的词将构成英语中的节奏感。停顿可分为句内停顿和句间标点停顿，其中句内停顿还可划分成更小单位的停顿。语调表现为句中每个词语的音调和每个韵律短语边界或句子边界的音调，包括上扬，下降等。英语是一种具有节奏感的语言，主要体现在它是一种重读等时性的语言。如例子所示，每个foot基本包含一个重读的音节。且重读音节之间时长差基本相等。

目前韵律分析方式主要有如几种：1、检测重读、停顿、语调或节奏感等指标，从其中一个角度或多个角度对发音者进行韵律分析。2、将发音者发音特征与标准韵律参数进行对比，基于对比结果进行韵律评估。3、提取韵律想相关特征，拟合专家分数，对发音者韵律进行评分。其中第二种，标准韵律的获得方式又有几种：1、从文本中生成标准韵律2、从标准英语母语发音者中获得。

第一种方式主要基于韵律检测结果进行一些参数的计算和统计。该方法首先对重读、停顿、语调进行建模，得到一个准确度较高的模型之后，基于该模型的预测结果，进行一些指标的计算。其中一些研究专注于建立准确度较高的模型，而一些专业人士基于这些模型的结果进行一些统计归纳。很多研究致力于建立准确度较高的韵律检测模型，如[2][3][4]等。很多研究对韵律特征进行统计，如[5][6][7][8]等。该方法需要融合语言学知识进行建模。

第二种方式，一种做法是提取标准音频的特征与发音者音频的特征，进行相似度对比，得到最终的评分。如[9][10]。另一种常见的做法，通过文本生成标准韵律，与实际发音韵律进行对比。这种做法涉及到两个步骤：基于文本预测韵律，基于实际发音检测韵律。基于文本预测韵律如[11][12][13]预测重读停顿等，[14][15]预测F0，许多研究将这两个步骤融合在一起如[16][17]等。一些语音合成研究中也涉及到由文本生成韵律的过程。如deep voice1[18]和deep voice2 [19]将F0与时长建模融合与语音合成建模过程中，基于Tacotron[20]的语音合成模型中，定义韵律是去除发音者特性、音段特征、通道变量之后剩下的变量。它将参考音频的韵律进行显式建模，具体做法是在训练过程中对参考音频提取有效韵律特征，获得韵律嵌入表示，预测时基于该韵律嵌入，获得包含韵律表示的合成音频。[21]在Tacotron增加了更抽象的多种风格学习。

第三种方式，发现有效特征，拟合专家韵律得分。一些研究如[22][23]等。这些方法往往需要高质量的专家打分和提取有效的韵律特征。

现有二语者韵律的研究难点大概可以总结为一下几点：1、影响二语者韵律评估的因素的探索2、如何提高各项因素的建模准确度2、如何获得高质量的韵律标注数据3、不采用标注数据，基于深度学习无监督学习，是否比现有的方案更好。

[1] https://en.wikipedia.org/wiki/Fundamental_frequency

[2] Automatic lexical stress and pitch accent detection for L2 English speech using multi-distribution deep neural networks

[3] Detecting Pitch Accents at the Word, Syllable and Vowel Level

[4] MODELLING OF THE PERCEPTION OF ENGLISH SENTENCE STRESS FOR COMPUTER-ASSISTED LANGUAGE LEARNING

[5] Research on objective evaluation system of English sentences based on stressed syllables and prosody.

[6] Rhythm in L2 speech，

[7] Isochrony and prosodic

[8] L2 English Rhythm in Read Speech by Chinese Students

[9]Proficiency Assessment of ESL Learner's Sentence Prosody with TTS Synthesized Voice as Reference

[10]Two Methods for Assessing Oral Reading Prosody

[11] Predicting Prosodic Stress Using Recurrent Phoneme

[12]Automatic sentence stress feedback for non-native English learners

[13] Prosodic Phrase Break Prediction: Problems in the Evaluation of Models against a Gold Standard

[14]FROM TEXT TO PROSODY WITHOUT TOBI

[15]FULLY AUTOMATIC PROSODY GENERATOR FOR TEXT-TO-SPEECH

[16]Automatic sentence stress feedback for non-native English learners

[17]Automatic prosody prediction and detection with Conditional Random Field (CRF) models

[18] Deep Voice: Real-time Neural Text-to-Speech

[19] Deep Voice 2: Multi-Speaker Neural Text-to-Speech

[20] Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron

[21]Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

[22]Prosody Analysis of L2 English for Naturalness Evaluation through Speech Modification

[23]Automatic assessment of prosody in high-stakes English tests

英语二语者韵律的评估