困难:
中文信息处理所面临的困难如生词识别问题、歧义消解问题等,汉语自动分词问题、词性定义规范问题等。
概念:
1.语言学和语音学
语言由语音、词汇和语法构成。
语音学是研究人类发音特点,特别是语音发音特点,并提出各种语音描述、分类和转写方法的科学。一般有三个分支:发音语音学、听觉语音学和声学语音学。语音学又常称作一般语音学或通用语音学。
2.自然语言处理
NLP也程NLU,
研究内容:
(1)机器翻译:一种语言自动翻译到另一种语言;
(2)自动文摘:自动提取、归纳文档主要内容和含义,形成摘要或缩写;
(3)信息检索、利用计算机系统从海量的文档中找到符合用户需要的相关文档;
(4)文档分类:按照一定的分类标准实现自动归类;
(5)问答系统、信息过滤、信息抽取、文本挖掘、舆情分析
(6)文字编辑和自动校对:对文字拼写、用词,甚至语法、文档格式等进行自动检查、校对和编排。
(7)作文自动评分、光读字符识别、语音识别、文语转换(语音合成)、说话人识别/认证/验证
1.2.2
如果撇开语音学研究的层面, 自然语言处理研究的问题一般会涉及自然语言的形态学、 语法学、 语义学和语用学等几个层次。
形态学:词的内部结构,包括屈折变化和构词法两个部分;
语法学:研究句子结构成分之间的相互关系和组成句子序列的规则;
语义学:研究对象为语言的各级单位,词素、词、词组、句子、句子群、整段文字等;
语用学:
处理方法:
理性主义:在自然语言处理系统中,一般首先由词法分析器按照人编写的词法规则对输入句子的单词进行词法分析,然后,语法分析器根据人设计的语法规则对输入句子进行语法结构分析, 最后再根据一套变换规则将语法结构映射到语义符号(如逻辑表达式、语义网络、中间语言等)。
经验主义:在自然语言处理系统中,一般首先由词法分析器按照人编写的词法
规则对输入句子的单词进行词法分析,然后,语法分析器根据人设计的语法规则对输入句子进行语法结构分析,最后再根据一套变换规则将语法结构映射到语义符号(如逻辑表达式、语义网络、中间语言等)。经验主义的自然语言处理方法是建立在统计方法基础之上的,又称其为统计自然语言处理。需要大量语料库(corpus base)作为基础。