文章目录
自然语言处理(计算机语言学、自然语言理解)
涉及:字处理,词处理,语句处理,篇章处理
词处理
分词、词性标注、实体识别、词义消歧
语句处理
句法分析(Syntactic Analysis)、语义分析(Senmantic Analysis)、机器翻译、语音合成
篇章处理
自动文摘
当前热点
信息抽取、文本分类、问答系统
统计语言模型
分词
字串均分为词串。难点:未登录词
最大匹配法/逆向最大匹配法/双向匹配法/最佳匹配法/最少分词法/词网格算法
语料库
“生语料“->自动分词->语法标注->句法分析->语义/语法分析->语言知识库
词性标注
- 基于规则的词性标注
- 基于隐马尔科夫模型HMM的词性标注
- 基于转移的词性标注
- 基于转移与隐马尔科夫模型相结合的词性标注
句法分析
总体结构:
输入句子->短语界定自动预测->括号匹配区间限制->句法分析->人工校队->分析树表示
自动短语定界:
- 确定短语左边界、右边界
- 根据上下文信息,把开括号与其相应的比括号对应起来