NLP学习记录——序列标注

本文介绍了序列标注问题,包括POS tagging和named entity recognition,讲解了生成模型,特别是Trigram Hidden Markov Models,并探讨了使用神经网络进行命名实体识别的方法。通过对上下文的理解和概率模型的应用,解决词汇歧义和低频词处理,揭示了NLP领域的基本问题及其解决方案。
摘要由CSDN通过智能技术生成

tagging problem

即序列标注问题。
给定一个词序列作为输入:the dog saw a cat。
要求输出其词性序列:D N V D N (D for a determiner, N for noun, and V for verb)。
有时输出序列会是这种形式:the/D dog/N saw/V a/D cat/N。
其中有两个重要具体分支任务:part-of-speech(POS) tagging和named-entity recognition.

POS tagging

INPUT:
Profits soared at Boeing Co., easily topping forecasts on Wall Street, as their CEO Alan Mulally announced first quarter results.
OUTPUT:
Profits/N soared/V at/P Boeing/N Co./N ,/, easily/ADV topping/V forecasts/N on/P Wall/N Street/N ,/, as/P their/POSS CEO/N Alan/N Mulally/N announced/V first/ADJ quarter/N results/N ./.
KEY:
N = Noun
V = Verb
P = Preposition
Adv = Adverb
Adj = Adjective

pos tagging是NLP领域的基础问题之一,在很多领域发挥着重要作用。
pos tagging的一个难点在于歧义——许多单词可以是不同的pos。上例中的profits是名词,但是在其它地方可能是动词。想到高中政治中学到“人是社会中的人”,同样,“单词是语句中的单词”,单纯从单词本身出发去解决问题是很难的,而考虑上下文后会更容易一些,能够削弱歧义的影响。
另一个难点在于很多单词出现的频率很低,导致比较难训练。这一点在词向量这一概念出现之后就不再是很严重的问题了,因为就算很多单词很少出现,但是其词向量会跟近义词接近。

named entity recognition

例:
INPUT: Profits soared at Boeing Co., easily topping forecasts on Wall Street, as their CEO Alan Mulally announced first quarter results.
OUTPUT: Profits soared at [Company Boeing Co.], easily topping forecasts on [Location Wall Street], as their CEO [Person Alan Mulally] announced first quarter results.
该任务就是要从语句中找出命名实体来,如人名、地名、公司名等。
实际上,在处理此类任务时,通常会对每一个单词预测一个label:
INPUT: Profits soared at

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值