统计自然语言处理梳理一:分词、命名实体识别、词性标注

本文介绍了统计自然语言处理中的基础任务,包括自动分词、词性标注和命名实体识别。自动分词面临分词规范、歧义划分和未登录词等问题,常见方法有基于规则、统计和两者结合。词性标注是确定词的语法范畴,挑战在于汉语的特性。命名实体识别主要识别文本中的专有名词,统计方法如隐马尔可夫模型、最大熵模型和条件随机场等各有优劣。作者还提到了在公司名识别方面的应用经验。
摘要由CSDN通过智能技术生成

  进行统计自然语言处理系统梳理,学习资料《统计自然语言处理.宗成庆》。

一、自动分词

         词,词是最小的能够独立运用的语言单位。

         自动分词问题由来。中文(还有日语、越南语、藏语等)的文本不像西方屈折语的文本,词与词之间没有空格之类的标注来显示指示词的边界,因此,自动分词成了文本处理的首要基础性工作。

         汉语自动分词的基本问题。1,分词规范问题:一方面单字词与词素的界定,另一方面是词与短语的界定。2,歧义划分问题:交集型歧义,如“结合成”,可划分为“结合|成”或“结|合成”; 组合型歧义,如“起身”,可以分开“起|身”,也可以不分开。3,未登录词问题(已有的词表中没有或训练语料中没有):新出现的普通词,命名实体(比“专有名词”的范围更大),领域词,其他专用名词。

         汉语分词方法。可以粗略地分为三类:基于规则的方法(基于词表),基于统计的方法,二者相结合。

         这块着重点:1,前向最长匹配原则;2,常用汉语分词软件。     

二,词性标注

         词性是词汇基本的语法属性,通常也称为词类。

         词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。

      

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值