山东大学计算机学院2022-2023第二学期自然语言处理期末考试回忆版

(20分)1、(1)什么是n-gram?

(2)“I am in Shandong University” 写出1-gram、2-gram、3-gram

(3)给了四个语句,计算(2)中的2-gram概率。

(20分)2、(1)写出常见的中文分词方法。

(2)写出HMM算法的组成部分并解释,说明HMM能够同时实现分词和词性标注的原理。

(20分)3、(1)画出统计机器翻译图示,通过概率公式说明翻译过程。

(2)画出神经机器翻译模型,并解释翻译过程。

(15分)4、(1)写出一个离散化的缺点。

(2)画出CBOW和skip-gram的网络结构,解释原理。

(15分)5、(1)给出三个mask的例子,说明预训练模型能够从中学到什么(示例是mask了her,说明它学到了指代关系)。

(2)举出Encoder、Decoder、Encoder-Decoder三个结构的代表模型,并结合例子说明原理。

(10分)6、你对大模型的感受,和大模型的发展与应用前景。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值