山东大学软件学院2023-2024第二学期自然语言处理期末考试回忆版

山东大学软件学院2023-2024第二学期自然语言处理期末考试

闭卷

 仅有47个人选的科目竟然能分出AB卷,本次考的是B卷,考的概念很多,公式很少。

5道题,每个20分

一,

1)预训练词向量化定义。2)为什么要进行预训练词向量化。3)负采样的原理,公式,详细描述。

二,

1)为什么要中文分词。2)有哪些挑战。3)给出词库[我们,经常,常有,有意见,意见,分歧,我,们,有,经,常,意,见,分,歧],使用前向最大匹配和后向最大匹配,把“我们经常有意见分歧”进行分词,写出结果。

三,

1)什么是文本序列分析。2)有哪些分类。3)CRF的假设,优缺点。4)已知CRF=(A,B,\lambda),文本序列X=(x1,x2,....,xn),求P(X|\lambda)。5)给出前向概率\alphat(i)的推导步骤.

四,

1)句法分析是什么。为什么要进行句法分析。2)依存句法分析是什么。3)转换生成语法是什么。4)比较依存句法和转换生成句法的优缺点。

1)什么是语言模型。2)如何评价语言模型。3)语言模型数据稀疏的的情况。4)大模型有哪几种分类,每种分类举出几个例子。5)根据下图,解释Multihead-Attention的结构。

感想

要复习的内容很多。大三下很多课要随堂考,这门课本来也准备随堂考,幸亏没这么考,不然根本复习不完。

复习的时候看来去年的卷子和作业题,基本只复习了公式,没怎么看概念;结果这次考了概念,直接寄了。

老师的资料网址:NLP课程-软件学院语义计算实验室

pdf和ppt都有密码,应该是每年都变,密码需要跟助教私聊。如果觉得打开密码每次都要输入太麻烦,直接找个pdf破解网站,只要有打开密码就可以把打开密码和编辑密码都去除,然后就可以打印了。

一共十章内容。前六章是重点,有课程笔记可以看。七八章只有ppt可以看,重点就是里面的评价指标公式,其他的应该不能考。第九章只有mp4,看了看感觉不重要,两年考题和作业题都没涉及。第十章没有复习资料,不发ppt和mp4,只给了英文资料。这次考试就考了上课讲的大模型的结构,但我没记,考试的时候想不起来。

实验要认真做。我们这一级实验每个人要做四个,前两个都是斯坦福cs224课程里面的原作业;第三个就开始找不到原题。第四个是综述或者论文复现二选一,最后都需要答辩。综述是组队,引用不小于25篇文章;论文复现是吃鸡,可以多个人选一个,但只有第一个做出来的算成功。

大三下要做项目实训,课程都在15,16,17周考试,选太多课对突击不友好。我这种都选的是真难过。限选够了就不用多选了。

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值