老师上课讲的重点
数学基础:概率论和信息论部分,熵的计算啥的公式一定要记下来
隐马尔可夫模型:是重点重点!前向概率,后向概率,Viterbi的计算,EM
支持向量机:了解核函数,对偶问题,不会考察它的具体推导过程
最大熵,对数线性模型:了解基本概念
词法分析:加1平滑重要,哪些是曲折语,孤立语,黏着语(说是往年考过这个选择题)
句法分析:线图分析法(Chart parsing),CYK是重点,依存分析中的Shift-reduce也是重点(考试会做改进,不一定会是ppt上的这种规则)
语义分析:不作为重点,基本概念(这章概念也不多)
机器翻译:统计机器翻译那里是重点,对齐一致性,距离跳转模型以及分类模型等,以及ppt上怎么通过那个矩阵找到词对。
朴素贝叶斯:重点,一定要掌握,尤其是几个例题,怎么计算类别概率等。
情感分析,知识图谱,命名实体识别:掌握基本概念
拉格朗日乘子法:老师上课重点推导过马尔科夫模型那里的用拉格朗日乘子法进行参数估计的过程,IBM 1的参数估计过程。PCFG那里上课说了让我们自己推导,朴素贝叶斯类别概率那里也说让我们自己推导(考试会考一个。但是不一定是考哪一个,基本方法都是一样的,一定要掌握)
召回率和准确率,F-score的计算:必须要掌握,ppt上好几个地方都出现了
对于机器翻译结果的评估方法和指标
分词中的正向最大匹配(FMM)和逆向最大匹配(BMM)也很重要!
总结
考试复习,一定要把ppt上的例题都掌握,考试题型类似于ppt上的例题。题目大都是考基础,但是因为大家平时也不会很注重这些基础(尤其是传统的NLP的词法分析,句法分析那些,对我们来说是很陌生的),所以这门考试还是要多花点时间复习。