英语发音与音位规则探索

1、(a)找出在英国(北部)、苏格兰和美国发音完全相同的十个最常用单词;(b)找出在上述三地发音完全相同的十个最长的单词;由于(a)的答案可能是非常短的单词列表,(b)的答案可能是罕见的长单词列表,因此我们做个折衷,(c)找出包含六个音素的十个最常用单词;找出在英国(北部)和美国发音差异最大的十个单词。

  • (a)最常用的同音词:
    “the”“in”“i”“his”“he”“it”“with”“is”“be”“by”;

  • (b)最长的同音词:
    “thoughtlessness”“inquisitiveness”“disappointment”“insignificance”“self - possessed”“licentiousness”“thoughtfulness”“vindictiveness”“incompleteness”“abstemiousness”;

  • (c)最常用的六个音素的同音词:
    “against”“between”“myself”“english”“itself”“business”“second”“behind”“except”“opinion”;

  • 英美发音差异最大的十个单词:
    “tupelo”“tourniquet”“ourselves”“algebraic”“scarecrow”“presbyopia”“newborn”“blowfly”“expiate”“snowplow”。

2、探索英语的音位组合规则。将以下Who系列的命名实体按照与英语音位组合规则的符合程度降序排列:Lethbridge、Zygon、Dalek、Angstrom、Graham、Yrcanos、Yaz、Pting、Zaakros、Susan。

## 角色列表

- Dalek
- Yrcanos
- Zygon
- Lethbridge
- Yaz
- Susan
- Zaakros
- Graham
- Angstrom
- Pting

3、下载文件 voice01.wav 到 voice10.wav。这些文件包含由说话者 D(五个文件)和说话者 Y(五个文件)说出的简短法语短语。其中四个是疑问句,六个是陈述句。通过算法(不听取音频)根据说话者和疑问/陈述模式对它们进行分类。

使用 pyAudioAnalysis 包进行文件处理

使用 pyAudioAnalysis 包处理音频文件,通过分析找到能够对文件进行分类的特征。

在法语中,疑问句通常在句末提高音调,即表现为音高的上升和声音强度(能量)的增强。

为了提取相关特征,可以计算音频中少量最高能量峰值(例如三个最高峰值)的平均值,从而获得有助于分类的结果。

4、下载、仔细阅读并评估美国图书馆协会/国会图书馆(ALA - LC)对阿拉伯语和希腊语的“罗马化”方案。

在评估时,将源语言(阿拉伯语和希腊语)原始书写形式记为L1,目标语言(英语)记为L2,源语言用L2书写形式记为L1′。

从四个独立维度评估转录方案:

  1. 语音相关性
    分L1音素存在于L2和不存在于L2两种情况,考察L1′字符是否合适;

  2. 歧义性
    看L1′字符选择是否会产生歧义及歧义单词频率;

  3. 自动化程度
    转录方法能否自动完成;

  4. 输入简易性
    在L2键盘上输入L1′字符的难易程度。

为每个转录表的每个维度分配A - C的分数。

评估结果

  • 阿拉伯语ALA - LC转录标记为: B / B / B / A−
  • 希腊语ALA - LC转录标记为: A− / A− / A / A−

希腊语转录比阿拉伯语转录要好,且阿拉伯语是最难转录的语言之一。

5、现代希腊汽车牌照样式如下:Ε Λ Λ Η Ν Ι Κ Η Δ Η Μ Ο Κ Ρ Α Τ Ι Α · Υ Μ Ε · GR AAA -0000,其中“A”可以是以下字母中的任意一个:“A”、“B”、“E”、“H”、“I”、“K”、“M”、“N”、“O”、“P”、“T”、“X”、“Y”、“Z”。这组字母有什么特点?车牌上的字母是希腊书写系统的字素、英语书写系统的字素,还是其他什么东西?

这组字母的特点是它们既可以被解释为希腊字母,也可以被解释为拉丁字母(不一定有相同的语音对应,如 P 在英语中发音为 /p/ ,在希腊语中发音为 /r/ )。

车牌上的字母不是希腊书写系统或英语书写系统的字素,因为车牌上不存在二次切分,字母不构成语素,即使偶尔出现语素也是偶然的,与车牌本身无关。

6、添加到 Unicode 标准中的汉字拟音符号(sinogram)的可预测性如何?选取基本多文种平面(BMP)中的汉字拟音符号,分析其结构,并找出每个结构模式中每个位置的组件出现的概率。然后,根据这些概率找出最有可能的汉字拟音符号,并检查它们是否确实被包含在补充表意平面(SIP)中。这种分解应纯粹是组合性的,不使用组件语义方面的信息。从 BMP 中包含的信息预测 1000 个最有可能的汉字拟音符号,并统计其中包含在 SIP 中的数量。

预测出 38

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值