基于滑动窗口的词性标注 2018年3月30日 BY FRANCE·0 COMMENTS

 

滑动窗口基础部分词性标注用于部分的语音标签文本。

自然语言中高百分比的单词是超出上下文范围的单词可以分配多于一个部分的语音。这些含糊不清的单词的百分比通常在30%左右,尽管它在很大程度上取决于语言。解决这个问题在很多自然语言处理领域都非常重要。例如,在机器翻译中,改变单词的词性可以显着改变其翻译。

基于滑动窗口的词性标注器是这样的程序,其通过查看词语周围的固定大小的“窗口”以被消除歧义,将单一词性分配给词的给定词汇形式。

这种方法的两个主要优点是:

正式定义[ 编辑]

\ Gamma = \ {\ gamma_ {​{1}},\ gamma_ {​{2}},\ ldots,\ gamma_ {​{| \ Gamma |}} \}

是应用程序的一组语法标签,也就是说,可能被分配给一个词的所有可能标签的集合,并让

W = \ {w1,w2,\ ldots \}

成为应用程序的词汇。让

T:W \ rightarrow P(\ Gamma)

是形态分析的一个功能,它分配每个形态分析

w ^ 它的一组可能的标签,

T(w)\ subseteq \ Gamma,这可以通过完整的词典或形态分析器来实现。让\ Sigma = \ sigma_ {​{1}},\ sigma _ {​{2}},\ ldots,\ sigma _ {​{| \ Sigma |}} \}

是集词类,在一般的将是一个分区

w ^ 与每个限制

\ sigma \ in \ Sigma 所有的话

{\ displaystyle w,\ Sigma,\ sigma} 将收到相同的一组标签,即每个单词类中的所有单词

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值