词性标注与命名实体识别

本文详细介绍了词性标注和命名实体识别的基本概念、常用方法和技术。词性标注是自然语言处理的重要预处理步骤,涉及词类划分和标注规范。jieba库提供了词性标注功能,结合规则和统计方法进行。命名实体识别则旨在识别文本中的专有名词,如人名、地名等,常用方法包括HMM、CRF等。条件随机场(CRF)作为命名实体识别的一种有效模型,能够考虑全局信息,相比HMM具有优势。
摘要由CSDN通过智能技术生成

Table of Contents

词性标注

简介

词性标注规范

jieba

命名实体识别

简介

基于条件随机场的命名实体识别


词性标注

简介

词性是词汇基本的语法属性,也称为词类。词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。词性标注是很多NLP任务的预处理步骤,如句法分析,经过词性标注后的文本会带来很大的便利性,但也不是不可或缺的步骤。整体上看在中文中,大多数词语,尤其是实词,一般只有一到两个词性,且其中一个词性的使用频率远大于另一个,即使每次都单纯选取最高频词性,也能实现80%准确率。

词性标注最简单的方法是从语料库中统计每个词所对应的高频词性,将其作为默认词性,这样显然还有上升空间。目前较主流的方法是同分词一样,将句子的词性标注作为一个序列标注问题来解决,同样分词中的常用方法,如HMM, CRF都可以在词性标注上使用。

词性标注规范

词性需要有一定的规范,如将词分为名词、形容词、动词,然后用'n' 'adj' 'v'来表示。中文领域尚无统一的标注标准,较为主流的有北大词性标注集合宾州词性标注集。北大词性标注集部分标注词性如下表所示:

    Ag     形语素     形容词性语素。形容词代码为a,语素代码g前面置以A。
    a       形容词      取英语形容词adjective的第1个字母。
 ad     副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。
 an     名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。
    b       区别词      取汉字“别”的声母。
    c       连词        取英语连词conjunction的第1个字母。
    Dg     副语素     副词性语素。副词代码为d,语素代码g前面置以D。
    d       副词     取adverb的第2个字母,因其第1个字母已用于形容词。
    e       叹词     取英语叹词exclamation的第1个字母。
    f        方位词      取汉字“方” 的声母。
 g       语素    绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。
    h       前接成分   取英语head的第1个字母。
    i        成语        取英语成语idiom的第1个字母。
    j        简称略语  取汉字“简”的声母。
    k       后接成分
    l        习用语     习用语尚未成为成语,有点“临时性”,取“临”的声母。
    m       数词     取英语numeral的第3个字母,n,u已有他用。
    Ng      名语素     名词性语素。名词代码为n,语素代码g前面置以N。
    n        名词        取英语名词noun的第1个字母。
    nr      人名        名词代码n和“人(ren)”的声母并在一起。
    ns

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值