哈工大自言语言理解视频笔记

最新推荐文章于 2024-04-29 09:18:34 发布

GodsLeft

最新推荐文章于 2024-04-29 09:18:34 发布

阅读量1.1k

点赞数 5

分类专栏：学习笔记

本文链接：https://blog.csdn.net/GodsLeft/article/details/80345758

版权

学习笔记专栏收录该内容

23 篇文章 0 订阅

订阅专栏

自然语言理解

自然语言理解

哈工大自然语言理解: https://www.bilibili.com/video/av11442754/?p=57
词法分析
- 分词歧义
- 词性标注
- 语法分析歧义
- 语义分析歧义
- 语用分析歧义
mindmanger思维导图工具
nednode管理论文的软件
Christopher Manning and Hinrich Schutze: Foundations of Statistical Language Process

1.1 自然语言处理绪论（一）

2.1 自然语言处理绪论（二）

3.1 自然语言处理绪论（三）

4.1 自然语言处理绪论（四）

5.1 自然语言处理绪论（五）

规则与统计相结合
评测技术
- Sighan
- Conll
- TREC

6.1 自然语言处理概论（一）

watson IBM人工智能机器人
相关术语
- 中文信息处理
- 中文语言处理
- 计算语言学
- 自言语言理解
- 智能人接接口
7.1 自然语言处理概论（二）
- 自然语言处理的基础内容
  - 音位学
  - 形态学
  - 词汇学
  - 句法学
  - 语用学
  - 语义学
  - 句法学
- 语料资料
  - 北京大学人民日报语料库
  - 现在汉语语法信息词典
  - 概念层次网络
  - 知网
- 评测方法

8.1 自然语言处理概论（三）

9.1 自然语言处理概论（四）

10.1 数学基础与语言学基础（一）

收集自然语言词汇的分布情况
根据这些分布情况进行统计推到，构造统计语言模型
字频
获取较低级单位语言单位的信息，运用相关的统计信息
11.1 数学基础与语言学基础（二）
- 汉子的信息熵： H(p)=∑x−p(x)logp(x)
  - 每收到一个英文讯号消除的不确定程度是4.16bit
  - 每收到一个中文信号小数的不确定程度是9.6
  - 汉子是当今世界上信息量最大的文字符号系统
- 条件概率（后验概率）
  - p(大学) = 0.003，p(大学 | 工业) = ？
- 先验概率
- 联合概率
  - $P(A, B) = P(A)P(B|A) = P(B)P(A|B)$
  - $argmax_{x}f(x)$ ：使f(x)值为最大的那个x
- 联合概率的链式规则
  - $P(A, B, C, D ...) = P(A)P(B|A)P(C|A,B)P(D|A,B,C..)$
  - 如果有词出现的概率为0怎么办？
  - $P(哈尔滨/工业/大学) = P(哈尔滨)P(工业|哈尔滨)P(大学|哈尔滨，工业)$
- 独立
  - 两个事件A与B相互独立，当且仅当 $P(A)=P(A|B) <=> P(A,B)=P(A)*P(B)$
- 条件独立
  - 两个时间A与B是在条件C下相互独立的: $P(A|C) = P(A|B,C)$

12.1 数学基础与语言学基础（三）

贝叶斯定理最简单形式： $P(A|B) = P(A,B)/P(B) = P(B|A)P(A)/P(B)$
使我们能够交换事件之间条件依赖的顺序： $argmax_AP(A|B) = argmax_A {P(B|A)P(A) \over P(B)} = argmax_A P(B|A)P(A)$
举例：音字转换： $a r g m a x T P (T | S) = a r g m a x T P ( S | T ) P ( T ) P ( S ) = a r g m a x T P (S | T) P (T)$ $argmax_T P(T|S) = argmax_T {P(S|T)P(T) \over P(S)} = argmax_T P(S|T)P(T)$
随机变量：离散连续，期望，方差

构造语言模型P(T)

两类方法:基于频度的统计，贝叶斯统计
1. 基于频度的方法：事件 $\mu$ 发生的次数与所有时间总次数的比率
  $f (μ) = C ( μ ) N$ $f(\mu) = {C(\mu) \over N}$
有参数分布
- 一些分布：二项分布，泊松分布，正太分布
无参数分布：
- 最大相似度估算（语言模型主要采用这个）

13.1 数学基础与语言学基础（四）

语言学基础部分

面向信息处理的词语分类体系
- 实词，虚词，拟声词，叹词，其他类
- 虚词：介词，连词，助词，语气词
最大熵模型
马尔科夫模型

14.1 数学基础与语言学基础（五）

简单算法 + 巨大的知识库
算法基本上不会有太大的调整，主要调整知识库
Ontology: 概念的集合，词汇的语义知识库
Hownet: 语义知识库，董振东和她的儿子

15.1 数学基础与语言学基础（六）

16.1 数学基础与语言学基础（七）

语义相似度的计算

基于语言知识库的语义相似度计算
基于统计的

如何构造比较专业的语言知识库

机器可读词典，lexicon(词表)
- 构造文本文件
- 数据库方式
- 二进制方式

// 词条定义
typedef struct HeadWordItem {
    int     Wordid;
    unsigned    char ChineseString[MAXWORDLEN];
    int     freq;
} HeadWordItem;

// 库定义
typedef struct Lexicon {
    char    LicenseInfo[256];
    int     Item_Number_of_Lexicon_Head;
    int     Item_Number_of_Lexicon_Body;
    HeadWordItem    LexiconHead[HEAD_LEN];
} Lexicon;

17.1 汉语的分词与频度统计（一）

分词很重要
- 孤立语：汉语为代表，没有专门表示语法意义的附加成分，语法关系
- 黏着语：
- 曲折语：英语代表

18.1 汉语的分词与频度统计（二）

经验方法的集合

分词的难点

切分歧义
未登陆词

19.1 汉语的分词与频度统计（三）

基于最大熵马尔科夫模型

常用的分词方法

正向最大匹配法
逆向最大匹配法：优于正向最大匹配法，90%左右
双向匹配法：
最少分词方法
词网格算法：比较高的精度

20.1 汉语的分词与频度统计（四）

语料库
- 平衡语料库：不同领域的文章
- 生语料，熟语料
- 共时语料 || 历时语料库
- 单语语料库 || 双语语料库
主要的汉语语料库
- 汉语现代文学作品语料库
- 现代汉语语料库
- 中学语文教材语料库
- 人民日报语料库
英语语料库
- Brown corpus:词性标注语料库，第一个英文语料库
- Penn Treebank:宾西法比亚语料库
双语语料库
- 计算机专业
- 香港法律文档双语语料库

词频共计是构造统计语言模型的必要步骤

（n-gram）n元词序列

21.1 汉语的分词与频度统计（五）

词频能够反映的一些问题
- 国家政策
- 地域差别
- 红楼梦前80回以及后面
  - 什么体现一个作家的写作风格
    - 虚词的使用：虚词频率
汤姆索耶历险记
- 词频统计
- 高频词多为虚词
- 低频次多为实词
- 频率统计结果：最高频的100个词出现的总数占总词数的50.9%，占词表总词数49.8%的词仅仅出现过1次，占词表总词数90%的词出现少于10次
- Zipf定律：在大规模英文文本中对单词进行计数，从最高频到最低频进行排序，那么其频度近似的服从Zipf定律：f正比于1/r，其中r是频序
  - 补充说明 $log(y) = log(kx^c) = logk + c log(x)$
  - 除了特高频和特低频之外
- Mandelbrot’s law: $f = P(r + q)^{-B},其中P,q,B是与文本有关的常数$

22.1 汉语的分词与频度统计（六）

有很多词汇无论语料库怎么增加，都不出现
Heap’s law: 反映了词表长度与语料库规模的关系：
V=KnβwithconstantsK,0<β<1,K 10−100,β 0.4−0.6
- n:词表个数，K

23.1 汉语的分词与频度统计（七）

《中国人》 || 《苏东坡传》 || 林语堂写的
汉语词频统计系统

24.1 汉语语料库的多级加工（一）

语料库语言学
语料库加工的意义
语料库规模
语料的分布
语料的加工深度
语料的加工顺序
语料库加工的规范

25.1 汉语语料库的多级加工（二）

中文人名识别方法
人名提取的上下文信息
- 称谓性词语，身份词
命名实体识别
人名，地名

26.1 汉语语料库的多级加工（三）

最大熵模型
- 是一个典型的基于统计与规则相结合的统计分类模型
- 核心思想：系统在满足约束的条件下，熵会趋向于最大，即系统趋向于更均匀
- Adam.L.Berger A maximnum entropy approach to natural language processing.

27.1 汉语语料库的多级加工（四）

词性标注
- 基于规则的词性标注
- 基于隐马尔科夫词性标注器
  - 从语料库中选取一定数据量的文本作为训练集
  - 手工分析这个训练集
  - 采用二元语法，从中归纳出统计数据
- 基于转移的词性标注器
  - 初始标注器 + 一套规则
  - 模板
    - 非词特征模板
    - 词特征模板
  - 可以生成规则
  - 基于转移的错误驱动的机器学习方法(TBL)
    - 应用广泛
    - 效果良好，但是精度有限
兼类词：名词形容词，副词

28.1 汉语语料库的多级加工（五）

语法分析
语义标注

29.1 汉语语料库的多级加工（六）

30.1 汉语语料库的多级加工（七）

语义标注
语义资源
- 语义标注语料库:Propbank是在Penn TreeBank句法分析的基础上，对动词有关的语义角色进行标注，包含50多个语义角色类型
- 语义知识库wordnet
- Mindnet，微软
- Framenet：框架语义学

汉语语料多级加工系统

自动切词和词性标注子系统
自动短语定界和句法标注子系统
自动语义标注子系统
辅助工具
- 查询工具、样本采取工具、统计工具、语料库管理界面
人机互助语料加工模型的特点
- 普遍性知识和特殊性知识相结合
- 人机处理相结合

31.1 n-gram语言模型（一）

噪声信道模型

噪声信道模型的应用：一个声学信号对应于一个语句，一个语音识别器需找到其对应的可能性最大的语言文本。

T = a r g m a x T (P (T | A)) = a r g m a x T p ( T ) p ( A | T ) p ( T | A ) = a r g m a x T p (T) p (A | T)

$T = argmax_T (P(T|A)) = argmax_T {p(T)p(A|T) \over p(T|A)} = argmax_T p(T)p(A|T)$

香浓游戏

给定前n-1个词，预测下一个词是什么？

32.1 n-gram语言模型（二）

问题是：参数空间过大，贝叶斯公式连乘，容易出现0；数据稀疏问题
马尔科夫假设
- 一个词的出现仅仅依赖于上面出现的一个或者几个词
- $P (I) = P (S) = P (w 1 w 2 . . . w n) = P (w 1) P (w 2 | w 1) P (w 3 | w 2) . . . P (W n | w n - 1)$ $P(I) = P(S) = P(w_1 w_2 ... w_n) = P(w_1) P(w_2|w_1) P(w_3|w_2) ... P(W_n|w_{n-1})$
- trigram语言模型
  - $P (I) = P (w 1) P (w 2 | w 1) P (w 3 | w 1 w 2) . . . P (w n | w n - 2 w n - 1)$ $P(I) = P(w_1) P(w_2|w_1) P(w_3|w_1 w_2) ... P(w_n|w_{n-2} w_{n-1})$
N-gram语言模型
- 最大相似度估计： $P (w n | w 1 w 2 . . . w n - 1) = C ( w 1 w 2 . . . w n ) C ( w 1 w 2 . . . w n - 1 )$ $P(w_n|w_1 w_2 ... w_{n-1}) = {C(w_1 w_2 ... w_n) \over C(w_1 w_2 ... w_{n-1})}$
- 语言模型公式： $P (w n | w n - 1 1) = P (w n | w n - 1 n - N + 1)$ $P(w_n|w_1^{n-1}) = P(w_n | w_{n-N+1}^{n-1})$
- 数据平滑技术
  - 降低一出现的n-gram一出现的条件分布，意识未出现的n-gram条件概率非0
  - 拉普拉斯定律，加一平滑 $P L a p (w 1 w 2 . . . w n) = C ( w 1 w 2 . . . w n ) + 1 N + B, (B = | V | n)$ $P_{Lap}(w_1 w_2 ... w_n) = {C(w_1 w_2 ... w_n)+1 \over N+B}, (B = |V|^n)$
  - Jeffreys-Perk low: 不加1，加一个小数
  - Good-Turing估计：
    - $如果 C (w 1, . . ., w n) = r > 0, P G T (w 1, . . ., w n) = r * / N, 此处 r * = ((r + 1) S (r + 1)) / S (r) (r + 1) N (r + 1) / N (r) 这里 S (r) 是 N r 的期望平滑估计$ $如果C(w_1,...,w_n) = r > 0, P_{GT}(w_1,...,w_n) = r^*/N, 此处r^*=((r+1)S(r+1))/S(r) ~ (r+1)N(r+1)/N(r) 这里S(r)是Nr的期望平滑估计$
    - $i f C (w 1, . . ., W n) = 0, P G T (w 1, . . ., W n) N / (N 0 N)$ $if C(w_1,...,W_n) = 0, P_{GT}(w_1,...,W_n) ~ N/(N_0 N)$
- 数据平滑论文：An Empirical Study of Smoothing Techniques for Language Modeling, Stanley F. Chen
- 平滑方法
  - Back-off平滑
  - 线性插值平滑
  - Witten-Bell平滑

33.1 n-gram语言模型（三）

Unigram、N-gram、N-pos三者的关系
一个词经常不出现，一旦出现就大量的出现
统计语言模型的评价方法
- 实用方法
- 基于交叉熵与迷惑度的方法，长度为n的单词序列的熵： $H (w 1, w 2, . . ., W n) = - \sum W n I \in L p (W n I) l o g p (W n I)$ $H(w_1, w_2,...,W_n) = - \sum_{W_I^n \in L} p(W_I^n) log p(W_I^n)$
- 熵率公式: $E R = 1 n H (W n I) = - 1 n \sum W n I \in L p (W n I) l o g p (W n I)$ $ER = {1 \over n} H(W_I^n) = - {1 \over n} \sum_{W_I^n \in L} p(W_I^n) log p(W_I^n)$
- 特定语言的熵： $H (L) = lim n \to \infty 1 n H (w 1, w 2, . . . w n) = lim n \to \infty - 1 n \sum W n I \in L p (W n I) l o g p (W n I)$ $H(L) = \lim_{n \to \infty} {1 \over n} H(w_1, w_2,...w_n) = \lim_{n \to \infty} - {1 \over n} \sum_{W_I^n \in L} p(W_I^n) log p(W_I^n)$
- Kullback-Leibler距离,KL距离:衡量两个概率差异的度量：
  - p(x) 与 q(x)的相关熵: $D ( p | | q ) = \sum x \in X l o g p ( x ) q ( x ) , D ( p | | q ) = E p ( l o g ( p ( X ) q ( X ) ) )$ $D(p || q) = \sum_{x \in X} log {p(x) \over q(x)}, D(p || q) = E_p (log (p(X) \over q(X)))$
- 语言与其模型的交叉熵: $H (X, m) = H (X) + D (p | | m) = - \sum X p (x) l o g m (x)$ $H(X, m) = H(X) + D(p || m) = - \sum_{X} p(x) log m(x)$ , $H (L, m) = - lim n \to \infty 1 n \sum x l n p (x l n) l o g m (x l n)$ $H(L,m) = - \lim_{n \to \infty} {1 \over n} \sum_{x_{ln}} p(x_{ln}) log m(x_{ln})$
- 迷惑度: $p e r p l e x i t y (x l n, m) = 2 H (x l n, m) = m (x l n) - 1 n$ $perplexity(x_{ln}, m) = 2^{H(x_{ln},m)} = m(x_{ln})^{- 1 \over n}$

34.1 n-gram语言模型（四）

最大熵模型

35.1 n-gram语言模型（五）

音字转换系统的理论: $T = a r g max T (P (T | S)) = arg max T P (T) P (S | T)$ $T = arg\,\max_T(P(T | S)) = \arg\,\max_T P(T) P(S|T)$

36.1 n-gram语言模型（六）

最大熵模型的理论基础

最大熵原理指在一定的限制条件下，尽可能的选择熵最大的概率分布（均匀分布）作为预测结果，而对不知道（限制条件以外）的情况，不做任何假设
最大熵模型：估计在限定条件下的概率，选择满足限定条件的p，使H(p)为最大: $H (x) = - \sum x \in X p (x) log p (x), 其中 x = (a, b), a \in A ⋂ b \in B$ $H(x) = - \sum_{x \in X} p(x) \log p(x), 其中 x=(a, b), a \in A \bigcap b \in B$
条件判别模型：最大熵模型
生成模型：隐马尔科夫模型
CRF模型：目前最好的模型

37.1 n-gram语言模型（七）

n-1阶马尔科夫模型
- 有限历史假设
- 时间不变，条件依赖跟时序没有关系

38.1 Markov模型（一）

马尔科夫模型性：统计模型
设 $X = (X_1, X_2, ... , X_n)$ 是随机变量序列，其中每个随机变量的取值在有限集 $S = { s_1, S_2,...,s_n }$ , 称之为状态空间
两个假设
- 有限历史假设：下一个随机变量
- 时间不变性假设：
N阶Markov模型
- 只需修改状态空间的定义 $S^\' = S * S$ 定义新的变量 $X_i \in S^\' 使得 X_i = (s_{i-1}, s_i)$
- 并且约定: $P (X i | X i - 1) = P ((s i - 1, s i) | (s i - 2, s i - 1)) = P (s i | (s i - 2, s i - 1))$ $P(X_i | X_{i-1}) = P((s_{i-1},s_i)|(s_{i-2},s_{i-1})) = P(s_i | (s_{i-2}, s_{i-1}))$
Markov模型的形式化表示：
- 一个马尔科夫模型是一个三元组 $(S, \pi, A)$ ，其中S是状态的集合， $\pi$ 是初始状态概率，A是状态空间的转移概率
隐马尔科夫模型(HMM)形式化定义:
- HMM是一个五元组 $(S,K,\pi,A,B)$ ，其中S是状态的集合，K是输出字符的集合， $\pi$ 是初始状态的概率，A是状态转移的概率。B是状态转移时输出字符的概率。
HMM的三个基本问题
- 参数估计：给定一个输出字符的序列0，如何调整模型的参数使得产生这一序列的概率最大
- 评价：给定一个模型 μ=(S,K,π,A,B) ，如何高效的计算某一输出字符序列的概率 P(O|μ)
  - 计算所有概率，选择最大
  - 动态规划：这个过程不太懂
- 解码：给定一个输出字符序列0和一个模型 μ ，如何确定产生这一序列概率最大的状态序列： (X1,X2,...,XT+1)
  - Viterbi算法

39.1 Markov模型（二）

40.1 Markov模型（三）

41.1 Markov模型（四）

42.1 Markov模型（五）

43.1 句法分析技术（一）

44.1 句法分析技术（二）

45.1 句法分析技术（三）

46.1 句法分析技术（四）

PCFG
浅层句法分析技术
基于HMM的浅层语法分析
级联是有限状态语法分析

47.1 句法分析技术（五）

48.1 问答系统基础（一）

LUNAR系统：查询月球的岩石数据,扩充转移网络句法分析
LIFER: 美国海军军舰的相关信息
START系统
ASKJEEVES：商用

49.1 问答系统基础（二）

基本概念

评测会议：支持在信息检索领域的基础研究，提供对大规模文本检索方法的评估办法
- TREC
问答系统术语
- 问题类型：Question Type
  - 事实类，列表类，定义类问题
- 答案类型：Answer Type
- 问句焦点：Question Focus
- 问句主题：Question Topic
- 候选段落：Candidate Passage
  - 候选段落的语义与问句的语义进行匹配的方法
    - 基于相似程度来打分
    - 基于语法关系来打分
    - 基于语义关系来打分
- 候选答案：Candidate Answer

50.1 问答系统基础（三）

网页爬虫
google API, baidu API，获取搜索结果
网页重复去重
数据库索引技术
智能化信息检索模型
- 现有信息检索模型
  - 布尔模型
  - 向量空间模型
  - 概率模型
- 基于结构映射理论的新型信息检索模型 – 系统相似模型
  - 向量空间模型的本源理论模型
  - 通用性理论模型