哈工大自言语言理解视频笔记

  1. 自然语言理解
    1. 1.1 自然语言处理绪论(一)
    2. 2.1 自然语言处理绪论(二)
    3. 3.1 自然语言处理绪论(三)
    4. 4.1 自然语言处理绪论(四)
    5. 5.1 自然语言处理绪论(五)
    6. 6.1 自然语言处理概论(一)
    7. 8.1 自然语言处理概论(三)
    8. 9.1 自然语言处理概论(四)
    9. 10.1 数学基础与语言学基础(一)
    10. 12.1 数学基础与语言学基础(三)
      1. 构造语言模型P(T)
    11. 13.1 数学基础与语言学基础(四)
      1. 语言学基础部分
    12. 14.1 数学基础与语言学基础(五)
    13. 15.1 数学基础与语言学基础(六)
    14. 16.1 数学基础与语言学基础(七)
      1. 语义相似度的计算
      2. 如何构造比较专业的语言知识库
    15. 17.1 汉语的分词与频度统计(一)
    16. 18.1 汉语的分词与频度统计(二)
      1. 分词的难点
    17. 19.1 汉语的分词与频度统计(三)
      1. 常用的分词方法
    18. 20.1 汉语的分词与频度统计(四)
      1. 词频共计是构造统计语言模型的必要步骤
    19. 21.1 汉语的分词与频度统计(五)
    20. 22.1 汉语的分词与频度统计(六)
    21. 23.1 汉语的分词与频度统计(七)
    22. 24.1 汉语语料库的多级加工(一)
    23. 25.1 汉语语料库的多级加工(二)
    24. 26.1 汉语语料库的多级加工(三)
    25. 27.1 汉语语料库的多级加工(四)
    26. 28.1 汉语语料库的多级加工(五)
    27. 29.1 汉语语料库的多级加工(六)
    28. 30.1 汉语语料库的多级加工(七)
      1. 汉语语料多级加工系统
    29. 31.1 n-gram语言模型(一)
      1. 噪声信道模型
      2. 香浓游戏
    30. 32.1 n-gram语言模型(二)
    31. 33.1 n-gram语言模型(三)
    32. 34.1 n-gram语言模型(四)
    33. 35.1 n-gram语言模型(五)
    34. 36.1 n-gram语言模型(六)
      1. 最大熵模型的理论基础
    35. 37.1 n-gram语言模型(七)
    36. 38.1 Markov模型(一)
    37. 39.1 Markov模型(二)
    38. 40.1 Markov模型(三)
    39. 41.1 Markov模型(四)
    40. 42.1 Markov模型(五)
    41. 43.1 句法分析技术(一)
    42. 44.1 句法分析技术(二)
    43. 45.1 句法分析技术(三)
    44. 46.1 句法分析技术(四)
    45. 47.1 句法分析技术(五)
    46. 48.1 问答系统基础(一)
    47. 49.1 问答系统基础(二)
      1. 基本概念
    48. 50.1 问答系统基础(三)
    49. 51.1 问答系统基础(四)
    50. 52.1 问答系统基础(五)
    51. 53.1 课堂总结(一)
    52. 54.1 课堂总结(二)
    53. 55.1 课堂总结(三)
    54. 56.1 课堂总结(四)
    55. 57.1 基于认知科学原理的相似模型(一)
    56. 58.1 基于认知科学原理的相似模型(二)
    57. 59.1 基于认知科学原理的相似模型(三)
    58. 60.1 基于认知科学原理的相似模型(四)
    59. 61.1 基于认知科学原理的相似模型(五)
    60. 62.1 基于认知科学原理的相似模型(六)
    61. 63.1 一篇论文的诞生(上)
    62. 64.1 一篇论文的诞生(中)
    63. 65.1 一篇论文的诞生(下)

自然语言理解

  • 哈工大自然语言理解: https://www.bilibili.com/video/av11442754/?p=57
  • 词法分析
    • 分词歧义
    • 词性标注
    • 语法分析歧义
    • 语义分析歧义
    • 语用分析歧义
  • mindmanger思维导图工具
  • nednode管理论文的软件
  • Christopher Manning and Hinrich Schutze: Foundations of Statistical Language Process

1.1 自然语言处理绪论(一)

2.1 自然语言处理绪论(二)

3.1 自然语言处理绪论(三)

4.1 自然语言处理绪论(四)

5.1 自然语言处理绪论(五)

  • 规则与统计相结合
  • 评测技术
    • Sighan
    • Conll
    • TREC

6.1 自然语言处理概论(一)

  • watson IBM人工智能机器人
  • 相关术语

    • 中文信息处理
    • 中文语言处理
    • 计算语言学
    • 自言语言理解
    • 智能人接接口
  • 7.1 自然语言处理概论(二)

    • 自然语言处理的基础内容
      • 音位学
      • 形态学
      • 词汇学
      • 句法学
      • 语用学
      • 语义学
      • 句法学
    • 语料资料
      • 北京大学人民日报语料库
      • 现在汉语语法信息词典
      • 概念层次网络
      • 知网
    • 评测方法

8.1 自然语言处理概论(三)

9.1 自然语言处理概论(四)

10.1 数学基础与语言学基础(一)

  • 收集自然语言词汇的分布情况
  • 根据这些分布情况进行统计推到,构造统计语言模型
  • 字频
  • 获取较低级单位语言单位的信息,运用相关的统计信息

  • 11.1 数学基础与语言学基础(二)

    • 汉子的信息熵:H(p)=xp(x)logp(x)
      • 每收到一个英文讯号消除的不确定程度是4.16bit
      • 每收到一个中文信号小数的不确定程度是9.6
      • 汉子是当今世界上信息量最大的文字符号系统
    • 条件概率(后验概率)
      • p(大学) = 0.003,p(大学 | 工业) = ?
    • 先验概率
    • 联合概率
      • P(A,B)=P(A)P(B|A)=P(B)P(A|B)
      • argmaxxf(x):使f(x)值为最大的那个x
    • 联合概率的链式规则
      • P(A,B,C,D...)=P(A)P(B|A)P(C|A,B)P(D|A,B,C..)
      • 如果有词出现的概率为0怎么办?
      • P(//)=P()P(|)P(|)
    • 独立
      • 两个事件A与B相互独立,当且仅当P(A)=P(A|B)<=>P(A,B)=P(A)P(B)
    • 条件独立
      • 两个时间A与B是在条件C下相互独立的: P(A|C)=P(A|B,C)

12.1 数学基础与语言学基础(三)

  • 贝叶斯定理最简单形式:P(A|B)=P(A,B)/P(B)=P(B|A)P(A)/P(B)
  • 使我们能够交换事件之间条件依赖的顺序:argmaxAP(A|B)=argmaxAP(B|A)P(A)P(B)=argmaxAP(B|A)P(A)
  • 举例:音字转换:
    argmaxTP(T|S)=argmaxTP(S|T)P(T)P(S)=argmaxTP(S|T)P(T)
  • 随机变量:离散连续,期望,方差

构造语言模型P(T)

  • 两类方法:基于频度的统计,贝叶斯统计
    1. 基于频度的方法:事件μ发生的次数与所有时间总次数的比率
      f(μ)=C(μ)N
  • 有参数分布
    • 一些分布:二项分布,泊松分布,正太分布
  • 无参数分布:
    • 最大相似度估算(语言模型主要采用这个)

13.1 数学基础与语言学基础(四)

语言学基础部分

  • 面向信息处理的词语分类体系
    • 实词,虚词,拟声词,叹词,其他类
    • 虚词:介词,连词,助词,语气词
  • 最大熵模型
  • 马尔科夫模型

14.1 数学基础与语言学基础(五)

  • 简单算法 + 巨大的知识库
  • 算法基本上不会有太大的调整,主要调整知识库
  • Ontology: 概念的集合,词汇的语义知识库
  • Hownet: 语义知识库,董振东和她的儿子

15.1 数学基础与语言学基础(六)

16.1 数学基础与语言学基础(七)

语义相似度的计算

  • 基于语言知识库的语义相似度计算
  • 基于统计的

如何构造比较专业的语言知识库

  • 机器可读词典,lexicon(词表)
    • 构造文本文件
    • 数据库方式
    • 二进制方式
// 词条定义
typedef struct HeadWordItem {
    int     Wordid;
    unsigned    char ChineseString[MAXWORDLEN];
    int     freq;
} HeadWordItem;

// 库定义
typedef struct Lexicon {
    char    LicenseInfo[256];
    int     Item_Number_of_Lexicon_Head;
    int     Item_Number_of_Lexicon_Body;
    HeadWordItem    LexiconHead[HEAD_LEN];
} Lexicon;

17.1 汉语的分词与频度统计(一)

  • 分词很重要
    • 孤立语:汉语为代表,没有专门表示语法意义的附加成分,语法关系
    • 黏着语:
    • 曲折语:英语代表

18.1 汉语的分词与频度统计(二)

  • 经验方法的集合

分词的难点

  • 切分歧义
  • 未登陆词

19.1 汉语的分词与频度统计(三)

  • 基于最大熵马尔科夫模型

常用的分词方法

  • 正向最大匹配法
  • 逆向最大匹配法:优于正向最大匹配法,90%左右
  • 双向匹配法:
  • 最少分词方法
  • 词网格算法:比较高的精度

20.1 汉语的分词与频度统计(四)

  • 语料库
    • 平衡语料库:不同领域的文章
    • 生语料,熟语料
    • 共时语料 || 历时语料库
    • 单语语料库 || 双语语料库
  • 主要的汉语语料库
    • 汉语现代文学作品语料库
    • 现代汉语语料库
    • 中学语文教材语料库
    • 人民日报语料库
  • 英语语料库
    • Brown corpus:词性标注语料库,第一个英文语料库
    • Penn Treebank:宾西法比亚语料库
  • 双语语料库
    • 计算机专业
    • 香港法律文档双语语料库

词频共计是构造统计语言模型的必要步骤

  • (n-gram)n元词序列

21.1 汉语的分词与频度统计(五)

  • 词频能够反映的一些问题
    • 国家政策
    • 地域差别
    • 红楼梦前80回以及后面
      • 什么体现一个作家的写作风格
        • 虚词的使用:虚词频率
  • 汤姆索耶历险记
    • 词频统计
    • 高频词多为虚词
    • 低频次多为实词
    • 频率统计结果:最高频的100个词出现的总数占总词数的50.9%,占词表总词数49.8%的词仅仅出现过1次,占词表总词数90%的词出现少于10次
    • Zipf定律:在大规模英文文本中对单词进行计数,从最高频到最低频进行排序,那么其频度近似的服从Zipf定律:f正比于1/r,其中r是频序
      • 补充说明 log(y)=log(kxc)=logk+clog(x)
      • 除了特高频和特低频之外
    • Mandelbrot’s law: f=P(r+q)B,P,q,B

22.1 汉语的分词与频度统计(六)

  • 有很多词汇无论语料库怎么增加,都不出现
  • Heap’s law: 反映了词表长度与语料库规模的关系:
    V=KnβwithconstantsK,0<β<1,K 10100,β 0.40.6

    • n:词表个数,K

23.1 汉语的分词与频度统计(七)

  • 《中国人》 || 《苏东坡传》 || 林语堂写的
  • 汉语词频统计系统

24.1 汉语语料库的多级加工(一)

  • 语料库语言学
  • 语料库加工的意义
  • 语料库规模
  • 语料的分布
  • 语料的加工深度
  • 语料的加工顺序
  • 语料库加工的规范

25.1 汉语语料库的多级加工(二)

  • 中文人名识别方法
  • 人名提取的上下文信息
    • 称谓性词语,身份词
  • 命名实体识别
  • 人名,地名

26.1 汉语语料库的多级加工(三)

  • 最大熵模型
    • 是一个典型的基于统计与规则相结合的统计分类模型
    • 核心思想:系统在满足约束的条件下,熵会趋向于最大,即系统趋向于更均匀
    • Adam.L.Berger A maximnum entropy approach to natural language processing.

27.1 汉语语料库的多级加工(四)

  • 词性标注

    • 基于规则的词性标注
    • 基于隐马尔科夫词性标注器
      • 从语料库中选取一定数据量的文本作为训练集
      • 手工分析这个训练集
      • 采用二元语法,从中归纳出统计数据
    • 基于转移的词性标注器
      • 初始标注器 + 一套规则
      • 模板
        • 非词特征模板
        • 词特征模板
      • 可以生成规则
      • 基于转移的错误驱动的机器学习方法(TBL)
        • 应用广泛
        • 效果良好,但是精度有限
  • 兼类词:名词形容词,副词

28.1 汉语语料库的多级加工(五)

  • 语法分析
  • 语义标注

29.1 汉语语料库的多级加工(六)

30.1 汉语语料库的多级加工(七)

  • 语义标注
  • 语义资源
    • 语义标注语料库:Propbank是在Penn TreeBank句法分析的基础上,对动词有关的语义角色进行标注,包含50多个语义角色类型
    • 语义知识库wordnet
    • Mindnet,微软
    • Framenet:框架语义学

汉语语料多级加工系统

  • 自动切词和词性标注子系统
  • 自动短语定界和句法标注子系统
  • 自动语义标注子系统
  • 辅助工具
    • 查询工具、样本采取工具、统计工具、语料库管理界面
  • 人机互助语料加工模型的特点
    • 普遍性知识和特殊性知识相结合
    • 人机处理相结合

31.1 n-gram语言模型(一)

噪声信道模型

噪声信道模型的应用:一个声学信号对应于一个语句,一个语音识别器需找到其对应的可能性最大的语言文本。

T=argmaxT(P(T|A))=argmaxTp(T)p(A|T)p(T|A)=argmaxTp(T)p(A|T)

香浓游戏

  • 给定前n-1个词,预测下一个词是什么?

32.1 n-gram语言模型(二)

  • 问题是:参数空间过大,贝叶斯公式连乘,容易出现0;数据稀疏问题
  • 马尔科夫假设
    • 一个词的出现仅仅依赖于上面出现的一个或者几个词
    • P(I)=P(S)=P(w1w2...wn)=P(w1)P(w2|w1)P(w3|w2)...P(Wn|wn1)
    • trigram语言模型
      • P(I)=P(w1)P(w2|w1)P(w3|w1w2)...P(wn|wn2wn1)
  • N-gram语言模型
    • 最大相似度估计:
      P(wn|w1w2...wn1)=C(w1w2...wn)C(w1w2...wn1)
    • 语言模型公式:
      P(wn|w1n1)=P(wn|wnN+1n1)
    • 数据平滑技术
      • 降低一出现的n-gram一出现的条件分布,意识未出现的n-gram条件概率非0
      • 拉普拉斯定律,加一平滑
        PLap(w1w2...wn)=C(w1w2...wn)+1N+B,(B=|V|n)
      • Jeffreys-Perk low: 不加1,加一个小数
      • Good-Turing估计:
        • C(w1,...,wn)=r>0,PGT(w1,...,wn)=r/N,r=((r+1)S(r+1))/S(r) (r+1)N(r+1)/N(r)S(r)Nr
        • ifC(w1,...,Wn)=0,PGT(w1,...,Wn) N/(N0N)
    • 数据平滑论文:An Empirical Study of Smoothing Techniques for Language Modeling, Stanley F. Chen
    • 平滑方法
      • Back-off平滑
      • 线性插值平滑
      • Witten-Bell平滑

33.1 n-gram语言模型(三)

  • Unigram、N-gram、N-pos三者的关系
  • 一个词经常不出现,一旦出现就大量的出现
  • 统计语言模型的评价方法
    • 实用方法
    • 基于交叉熵与迷惑度的方法,长度为n的单词序列的熵:
      H(w1,w2,...,Wn)=WInLp(WIn)logp(WIn)
    • 熵率公式:
      ER=1nH(WIn)=1nWInLp(WIn)logp(WIn)
    • 特定语言的熵:
      H(L)=limn1nH(w1,w2,...wn)=limn1nWInLp(WIn)logp(WIn)
    • Kullback-Leibler距离,KL距离:衡量两个概率差异的度量:
      • p(x) 与 q(x)的相关熵:
        D(p||q)=xXlogp(x)q(x),D(p||q)=Ep(log(p(X)q(X)))
    • 语言与其模型的交叉熵:
      H(X,m)=H(X)+D(p||m)=Xp(x)logm(x)
      ,
      H(L,m)=limn1nxlnp(xln)logm(xln)
    • 迷惑度:
      perplexity(xln,m)=2H(xln,m)=m(xln)1n

34.1 n-gram语言模型(四)

  • 最大熵模型

35.1 n-gram语言模型(五)

  • 音字转换系统的理论:
    T=argmaxT(P(T|S))=argmaxTP(T)P(S|T)

36.1 n-gram语言模型(六)

最大熵模型的理论基础

  • 最大熵原理指在一定的限制条件下,尽可能的选择熵最大的概率分布(均匀分布)作为预测结果,而对不知道(限制条件以外)的情况,不做任何假设
  • 最大熵模型:估计在限定条件下的概率,选择满足限定条件的p,使H(p)为最大:
    H(x)=xXp(x)logp(x),x=(a,b),aAbB
  • 条件判别模型:最大熵模型
  • 生成模型:隐马尔科夫模型
  • CRF模型:目前最好的模型

37.1 n-gram语言模型(七)

  • n-1阶马尔科夫模型
    • 有限历史假设
    • 时间不变,条件依赖跟时序没有关系

38.1 Markov模型(一)

  • 马尔科夫模型性:统计模型
  • X=(X1,X2,...,Xn) 是随机变量序列,其中每个随机变量的取值在有限集S=s1,S2,...,sn, 称之为状态空间
  • 两个假设
    • 有限历史假设:下一个随机变量
    • 时间不变性假设:
  • N阶Markov模型
    • 只需修改状态空间的定义 S\'=SS 定义新的变量 XiS\'使Xi=(si1,si)
    • 并且约定:
      P(Xi|Xi1)=P((si1,si)|(si2,si1))=P(si|(si2,si1))
  • Markov模型的形式化表示:
    • 一个马尔科夫模型是一个三元组(S,π,A),其中S是状态的集合,π是初始状态概率,A是状态空间的转移概率
  • 隐马尔科夫模型(HMM)形式化定义:
    • HMM是一个五元组(S,K,π,A,B),其中S是状态的集合,K是输出字符的集合,π是初始状态的概率,A是状态转移的概率。B是状态转移时输出字符的概率。
  • HMM的三个基本问题
    • 参数估计:给定一个输出字符的序列0,如何调整模型的参数使得产生这一序列的概率最大
    • 评价:给定一个模型μ=(S,K,π,A,B),如何高效的计算某一输出字符序列的概率P(O|μ)
      • 计算所有概率,选择最大
      • 动态规划:这个过程不太懂
    • 解码:给定一个输出字符序列0和一个模型μ,如何确定产生这一序列概率最大的状态序列:(X1,X2,...,XT+1)
      • Viterbi算法

39.1 Markov模型(二)

40.1 Markov模型(三)

41.1 Markov模型(四)

42.1 Markov模型(五)

43.1 句法分析技术(一)

44.1 句法分析技术(二)

45.1 句法分析技术(三)

46.1 句法分析技术(四)

  • PCFG
  • 浅层句法分析技术
  • 基于HMM的浅层语法分析
  • 级联是有限状态语法分析

47.1 句法分析技术(五)

48.1 问答系统基础(一)

  • LUNAR系统:查询月球的岩石数据,扩充转移网络句法分析
  • LIFER: 美国海军军舰的相关信息
  • START系统
  • ASKJEEVES:商用

49.1 问答系统基础(二)

基本概念

  • 评测会议:支持在信息检索领域的基础研究,提供对大规模文本检索方法的评估办法
    • TREC
  • 问答系统术语
    • 问题类型:Question Type
      • 事实类,列表类,定义类问题
    • 答案类型:Answer Type
    • 问句焦点:Question Focus
    • 问句主题:Question Topic
    • 候选段落:Candidate Passage
      • 候选段落的语义与问句的语义进行匹配的方法
        • 基于相似程度来打分
        • 基于语法关系来打分
        • 基于语义关系来打分
    • 候选答案:Candidate Answer

50.1 问答系统基础(三)

  • 网页爬虫
  • google API, baidu API,获取搜索结果
  • 网页重复去重
  • 数据库索引技术
  • 智能化信息检索模型
    • 现有信息检索模型
      • 布尔模型
      • 向量空间模型
      • 概率模型
    • 基于结构映射理论的新型信息检索模型 – 系统相似模型
      • 向量空间模型的本源理论模型
      • 通用性理论模型

51.1 问答系统基础(四)

  • 用到的自言语言处理技术
    • 分词与磁性标注
    • 命名实体识别
    • 文本摘要
    • 文本分类
    • 文本聚类
    • 语言浅层分析
    • 问句分析
    • 问句 / 答案匹配以及排序

52.1 问答系统基础(五)

53.1 课堂总结(一)

54.1 课堂总结(二)

  • 基于SOM的聚类模型

55.1 课堂总结(三)

56.1 课堂总结(四)

57.1 基于认知科学原理的相似模型(一)

58.1 基于认知科学原理的相似模型(二)

  • 概念相似
  • 感知相似
  • Dedre Gentner,相似大牛

59.1 基于认知科学原理的相似模型(三)

  • 高阶谓词论元结构三个层次的对象
    • 属性
    • 个体
    • 关系

60.1 基于认知科学原理的相似模型(四)

61.1 基于认知科学原理的相似模型(五)

62.1 基于认知科学原理的相似模型(六)

63.1 一篇论文的诞生(上)

64.1 一篇论文的诞生(中)

65.1 一篇论文的诞生(下)

阅读更多
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/GodsLeft/article/details/80345758
个人分类: 学习笔记
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭