1、(a)找出在英国(北部)、苏格兰和美国发音完全相同的十个最常用单词;(b)找出在上述三地发音完全相同的十个最长的单词;由于(a)的答案可能是非常短的单词列表,(b)的答案可能是罕见的长单词列表,因此我们做个折衷,(c)找出包含六个音素的十个最常用单词;找出在英国(北部)和美国发音差异最大的十个单词。
-
(a)最常用的同音词:
“the”“in”“i”“his”“he”“it”“with”“is”“be”“by”; -
(b)最长的同音词:
“thoughtlessness”“inquisitiveness”“disappointment”“insignificance”“self - possessed”“licentiousness”“thoughtfulness”“vindictiveness”“incompleteness”“abstemiousness”; -
(c)最常用的六个音素的同音词:
“against”“between”“myself”“english”“itself”“business”“second”“behind”“except”“opinion”; -
英美发音差异最大的十个单词:
“tupelo”“tourniquet”“ourselves”“algebraic”“scarecrow”“presbyopia”“newborn”“blowfly”“expiate”“snowplow”。
2、探索英语的音位组合规则。将以下Who系列的命名实体按照与英语音位组合规则的符合程度降序排列:Lethbridge、Zygon、Dalek、Angstrom、Graham、Yrcanos、Yaz、Pting、Zaakros、Susan。
## 角色列表
- Dalek
- Yrcanos
- Zygon
- Lethbridge
- Yaz
- Susan
- Zaakros
- Graham
- Angstrom
- Pting
3、下载文件 voice01.wav 到 voice10.wav。这些文件包含由说话者 D(五个文件)和说话者 Y(五个文件)说出的简短法语短语。其中四个是疑问句,六个是陈述句。通过算法(不听取音频)根据说话者和疑问/陈述模式对它们进行分类。
使用 pyAudioAnalysis 包进行文件处理
使用 pyAudioAnalysis 包处理音频文件,通过分析找到能够对文件进行分类的特征。
在法语中,疑问句通常在句末提高音调,即表现为音高的上升和声音强度(能量)的增强。
为了提取相关特征,可以计算音频中少量最高能量峰值(例如三个最高峰值)的平均值,从而获得有助于分类的结果。
4、下载、仔细阅读并评估美国图书馆协会/国会图书馆(ALA - LC)对阿拉伯语和希腊语的“罗马化”方案。
在评估时,将源语言(阿拉伯语和希腊语)原始书写形式记为L1,目标语言(英语)记为L2,源语言用L2书写形式记为L1′。
从四个独立维度评估转录方案:
-
语音相关性 :
分L1音素存在于L2和不存在于L2两种情况,考察L1′字符是否合适; -
歧义性 :
看L1′字符选择是否会产生歧义及歧义单词频率; -
自动化程度 :
转录方法能否自动完成; -
输入简易性 :
在L2键盘上输入L1′字符的难易程度。
为每个转录表的每个维度分配A - C的分数。
评估结果 :
- 阿拉伯语ALA - LC转录标记为:
B / B / B / A− - 希腊语ALA - LC转录标记为:
A− / A− / A / A−
希腊语转录比阿拉伯语转录要好,且阿拉伯语是最难转录的语言之一。
5、现代希腊汽车牌照样式如下:Ε Λ Λ Η Ν Ι Κ Η Δ Η Μ Ο Κ Ρ Α Τ Ι Α · Υ Μ Ε · GR AAA -0000,其中“A”可以是以下字母中的任意一个:“A”、“B”、“E”、“H”、“I”、“K”、“M”、“N”、“O”、“P”、“T”、“X”、“Y”、“Z”。这组字母有什么特点?车牌上的字母是希腊书写系统的字素、英语书写系统的字素,还是其他什么东西?
这组字母的特点是它们既可以被解释为希腊字母,也可以被解释为拉丁字母(不一定有相同的语音对应,如 P 在英语中发音为 /p/ ,在希腊语中发音为 /r/ )。
车牌上的字母不是希腊书写系统或英语书写系统的字素,因为车牌上不存在二次切分,字母不构成语素,即使偶尔出现语素也是偶然的,与车牌本身无关。
6、添加到 Unicode 标准中的汉字拟音符号(sinogram)的可预测性如何?选取基本多文种平面(BMP)中的汉字拟音符号,分析其结构,并找出每个结构模式中每个位置的组件出现的概率。然后,根据这些概率找出最有可能的汉字拟音符号,并检查它们是否确实被包含在补充表意平面(SIP)中。这种分解应纯粹是组合性的,不使用组件语义方面的信息。从 BMP 中包含的信息预测 1000 个最有可能的汉字拟音符号,并统计其中包含在 SIP 中的数量。
预测出 38

最低0.47元/天 解锁文章
31

被折叠的 条评论
为什么被折叠?



