NLP复习资料(2)-三~五章:形式语言、语料库、语言模型


国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。

1.第三章:形式语言

1.语言描述的三种途径:穷举法、语法描述(形式语言)、自动机

2.形式语言四元组表示,最左推导,最右推导,例3-1

3.p27. L(G0)>=L(G1)>=L(G2)>=L(G3)

4.p30上下文无关文法产生语言的句子派生树、文法的二义性:有不止一棵以上的派生树(关于 鲁迅的文章-关于鲁迅 的 文章)

5.有限自动机五元组表示,P39状态变换图

6.例3.8 正则文法与有限自动机之间的转换

7p59 例3.9下推自动机的处理步骤

8.有限自动机用于英语的单词拼写检查,采用深度优先算法在自动机选择编辑距离最小路径。P64编辑距离,P69 X截取范围的确定 P

9有限状态转换机用于英语单词形态分析(不仅有状态转换还有输出:补全单词和一个+)

2.第四章:语料库

1.语料库发展的三个阶段:
20世纪50年代中期:早期、
1957-20世纪80年代:沉积时期、
20世纪80年代后:复苏发展时期(主要特征:第二代语料库相继建成、基于语料库的研究项目增多)语料库复苏的原因P15计算机迅速发展、转换生成语言学派对语料库语言的批判不都正确。

2.语料库的类型:P21同质/异质,系统/专用,单语/多语,平衡语料库(语料的代表性和平衡性),平行语料库(双语平行语料库,机器翻译),共时语料库/历时语料库

3.语料库建设中的问题:
设计时问题:静态与动态,代表性与平衡性,规模,管理与维护
开发中为题:规范问题,产权问题p36

4.典型语料库和:(记一两个吧)
宾夕法尼亚大学的中文树库,词性33类,句法23类P42
北京大学开发的CLKBp61
词汇知识库:
普林斯顿大学WordNet p78
知网HowNet p85

3.第五章:语言模型

1.基于大规模语料库,出现了自然语言的统计处理方法,那么如何计算一个句子的概率呢?依据组成句子的词语的联合概率计算?词之间不独立,不行!那就考虑在历史词的基础上考虑当前词的概率,然后连乘。参数空间太大,不行!那就只考虑前n个历史词汇。OK呀~

2.p11 n元文法,n个邻近的词构成一个词序列。P12句子n元次序列划分的例子。

3.N元文法的两个应用-音字转换、汉语分词,选择概率最大的那个作为输出就对了。

4.参数估计–n元文法中连乘的每个概率的计算,训练语料库中历史一共出现的次数为分母,历史与当前一同出现的为分子,一除,搞定。P27计算题

5.n元文法最主要的一个问题:数据稀疏,要计算语料库中没见到的情况,怎么办?–数据平滑呀,基本思想–劫富济贫。加1法p37计算题。减值法good-turingP41公式推导。Back-off方法P47基本思想。绝对减值法和线性减值法的思想。删除价值法,低阶代替高阶,线性插值

5.模型自适应:前两种方法都是线性插值多个模型:(1)缓存模型p62(2)不同类型模型p67 (3)最大熵模型p69

6.应用举例:汉语分词,
p77以词序列为基本单位,效果不好,改成词类序列为基本单位。P81语言模型和生成模型。P87的训练步骤
p93分词与词性标注一体化的方法

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值