有时候觉得很好笑,每天说自己做自然语言处理,可真正,自然语言处理到底是做什么的,我也没有搞明白,不透彻,整个背景还是空缺的,现在对这部分的知识点进行弥补。
看的是宗成庆老师的这本书的讲义。
我们说的自然语言处理(Nature language processing,NLP),是计算语言学(Computational Linguistics)的应用领域。什么是计算语言学,用通俗的话来说的话,就是用计算机,采用统计分析的手段来对语言进行处理,然后得到需要的知识,达到需要达到的目的。在NLP中,研究很热的一个分支是自然语言理解(Nature language Understanding, NLU)。慢慢发展,其实这三个概念指代相同的事情,我们一般不做细分。
NLP的研究内容,按应用来划分:机器翻译(Machine translate, MT), 信息检索(Information retrieval), 自动文摘(Automatic summarization/Automatic abstracting),文本分类(Text categorization/classification),问答系统(Question-answering system),信息过滤(Information filtering), 语言教学(Language teaching), 文字识别(Character recognition),文字编辑和自动校对(Automatic proofreading),语音识别(speech recognition), 文语转换(text-to-speech), 说话人识别/认同/验证(speaker recognition identif