NLP复习资料(1)-绪论、数学基础


国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。

1.绪论

1. 语言学、计算语言学、自然语言理解、自然语言处理、中文信息系统这几个概念

2. HLT人类语言技术研究内容:机器翻译、信息检索、自动文摘、问答系统、信息过滤 、信息抽取、文档分类、情感分类、文字编辑和自动校对、语言教学、文字识别、语音识别、文语转换/语音合成、说话人识别/认同/验证

3. P57基本问题:形态学问题、句法问题、语义问题、语用问题、语音学问题

4. P71 主要困哪:大量歧义现象、未知语言现象不可预测性、始终面临数据不充分性、语言知识表达的复杂性、机器翻译中映射单元不对等性

5. P77基本研究方法:理性主义(基于规则的方法),经验主义(基于统计的方法)

2.数学基础

2.1信息论基础:

熵H(X):描述随机变量的不确定度。

联合熵H(X,Y):描述两个随机变量一起的不确定度。

条件熵H(X|Y):已知一个随机变量的基础下,另一个随机变量的熵

连锁规则:H(X,Y)=H(X)+H(Y|X)

相对熵D(p||q)(KL散度):衡量两个概率分布之间的差距

交叉熵H(X,q):模型分布与真实概率分布之间的差异

困惑度PPq:用交叉熵来定义,多一个幂次P35

互信息I(X;Y)=H(X)-H(X|Y)不确定度的减少量,用于衡量两个汉字的结合程度(P40)

双字耦合度P42:用于衡量两个汉字的结合程度(更佳)

2.2应用实例:词汇消歧

贝叶斯分类器P55

最大熵消除歧义:P61只是推导了p(a|b)的概率,(并没有说明和最大熵的关系。)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值