自然语言处理(natural language processing,NLP)是近年来发展十分迅速的一门涵盖自然语言学、数学与计算机科学的交叉性学科,研究的是在人与人交际中以及人与计算机交际中的语言问题。在现今社会中应用十分频繁,其中就有我们日常使用的语音识别输入、中英文翻译等。它不仅是社会需求十分巨大的应用技术,也是一门具有非常重要科学意义的自然科学。
- 要掌握NLP,我们需要有概率论、信息论等预备知识
1、什么是自然语言?
(1)不是人为设计而是自然进化的,虽然人们试图强加一些规则,
(2)由语音、词汇、语法构成,
(3)语音是词汇的物质外壳,是最原始的语言,
(4)文字是记录语言的书写符号系统。
2、模型简述
语言模型(language model,LM)在自然语言处理中占有着重要的地位,尤其在基于统计的语音识别、机器翻译、句法分析等相关研究中得到了广泛应用。目前主要采用的是n元语法模型,这种模型构建简单、直接。
(1)n元语法
一个语言模型通常表现为构建字符串s的概率分布p(s),这里p(s)试图反映的是字符串s作为一个句子出现的频率,即是组成字符串的这个组合在训练语料库中出现的似然。需要注意的是,与语言学中不同,语言模型与句子是否合乎语法逻辑无关,即使一个句子组合完全合乎语法,但这个组合在语料库中出现的似然极小