第 1 章 语言处理与 Python
- 频率分布是项目连同它们的频率计数的集合(例如:一个文本中的词与它们出现的频率)。
- 自然语言处理研究的一个重要目标一直是使用浅显但强大的技术代替无边无际的知识和推理能力,促进构建“语言理解”技术的艰巨任务的不断取得进展。
- 给出一个德文和英文双语的文档或者一个双语词典,我们就可以自动配对组成句子,这个过程叫做文本对齐。
- 离散图中每一个竖线代表一个单词,每一行代表整个文本。
- 一个词类型是指一个词在一个文本中独一无二的出现形式或拼写。
- 程序设计的一个关键特征是让机器能按照我们的意愿决策,遇到特定条件时执行特定命令,或者对文本数据从头到尾不断循环遍历直到条件满足。
- 自动消除歧义需要使用上下文,利用相邻词汇有相近含义这样一个简单的事实。
第 2 章 获得文本语料和词汇资源
博客:NLP学习路线总结
- 把就职演说语料库当作一个单独的文本对待,实际上是 55 个文本的集合,每个文本都是一个总统的演说。这个集合的一个有趣特性是它的时间维度。
- 许多文本语料库都包含语言学标注,有词性标注、命名实体、句法结构、语义角色等。
- 条件频率分布是频率分布的集合,每个频率分布有一个不同的“条件”。
- 一个词项包括词 目(也叫词条)以及其他附加信息&