词性标注

词性标注作为自然语言处理的基础,通常采用监督学习方法。涉及到形态学、句法和语义等因素。常见算法包括正则表达式、查询标注器、N-gram标注器,以及brill标注器,后者结合统计和规则方法。回退技术用于处理数据稀疏问题,而生词检测则可能使用特殊符号UNK代替。性能上限可以通过确定标注的歧义性来估算。
摘要由CSDN通过智能技术生成

//个人学习笔记,如有错误,请指正

词性标注是自然语言处理中比较基础的部分

词性标注采用监督学习

 

和词性相关的几种因素

形态学

句法

语义

几种算法:

正则表达式标注器

基于(人为设定的)规则,比如ing结尾,标记为动词

查询标注器

类似unigram

N-gram标注器

unigram:每个单词最可能的词性

bigram:在已知前一个单词的词性的前提下,单词最可能的词性

trigram:在已知前两个单词的词性前提下,单词最可能的词性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值