NLP简介
NLP是计算机科学领域以及人工智能领域的一个重要的研究方向,它研究用计算机来处理、理解以及运用人与计算机之间进行有效通讯。自然语言的理解是个综合的系统工程,包括声音的音系学,代表构词法的词态学,代表语句结构的句法学,代表理解的语义句法学和语用学。
NLP相关知识的构成
基本术语
分词(segment)
词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文分词的基础与关键。中文常用基于字典的最长串匹配。
词性标注 (part-of-speech tagging)
基于机器学习的方法里,往往需要对词的词性进行标注。词性一般是指动词、名词、形容词等。标注的目的是表征词的一种隐藏状态。
命名实体识别(NER, Nemed Entity Recognition)
命名实体是指从文本中识别具有特定类别的实体(通常是名词),例如人名、地名、机构名、专有名词等。
句法分析(syntax parsing)
句法分析往往是一种基于规则的专家系统。句法分析可以解决传统词袋模型不考虑上下文的问题。
指代消解(anaphora resolution)
中文中代词出现的频率很高,它的作用是用来表征前文出现过的人名、地名等。
情感识别(emotion recognition)
所谓情感识别,本质上是分类问题,经常被应用在舆情分析等领域。
纠错(correction)
自动纠错具体做法很多,可以基于N-Gram进行纠错,也可以通过字典树、有限状态机等方法。
问答系统(QA System)
问答系统往往需要语音识别、合成,自然语言理解、知识图谱等多项技术配合实现。