自然语言处理-哈工大笔记

本文涵盖了自然语言处理的多个方面,包括词处理、语句处理和篇章处理。重点讲解了分词方法如最大匹配法,介绍了词性标注的HMM模型,深入探讨了马尔科夫模型和隐马尔科夫模型在句法分析中的应用,并阐述了基于HMM的词性标注技术。此外,还提及了统计语言模型和当前热点如信息抽取、文本分类、问答系统。
摘要由CSDN通过智能技术生成


自然语言处理(计算机语言学、自然语言理解)
涉及:字处理,词处理,语句处理,篇章处理

词处理

分词、词性标注、实体识别、词义消歧

语句处理

句法分析(Syntactic Analysis)、语义分析(Senmantic Analysis)、机器翻译、语音合成

篇章处理

自动文摘

当前热点

信息抽取、文本分类、问答系统

统计语言模型

分词

字串均分为词串。难点:未登录词
最大匹配法/逆向最大匹配法/双向匹配法/最佳匹配法/最少分词法/词网格算法

语料库

“生语料“->自动分词->语法标注->句法分析->语义/语法分析->语言知识库

词性标注

  1. 基于规则的词性标注
  2. 基于隐马尔科夫模型HMM的词性标注
  3. 基于转移的词性标注
  4. 基于转移与隐马尔科夫模型相结合的词性标注

句法分析

总体结构:
输入句子->短语界定自动预测->括号匹配区间限制->句法分析->人工校队->分析树表示

自动短语定界:

  1. 确定短语左边界、右边界
  2. 根据上下文信息,把开括号与其相应的比括号对应起来
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值