面向依存关系语法分析的词向量裁剪

改进Word2Vec在依存分析中的应用
本文介绍了一种改进的Word2Vec模型在依存语法分析任务中的应用,通过调整窗口大小和采样策略来提高词性标注的准确性。实验结果显示,这种方法能够有效提升词向量在词性标注任务上的表现。

文献:Bansal M, Gimpel K, Livescu K. Tailoring Continuous Word Representations for Dependency Parsing[C]//ACL (2). 2014: 809-815.

修正策略

(1)文章采用相对较小的w:实验发现,在word2vec中,窗口尺寸w越大,则捕获词语义的概率越高;窗口尺寸w越小,则捕获词POS的概率越高.
(2)negative sampling中的采样对象,传统word2vec在目标词v的邻域中进行采样,而本文的采样对象是目标词v在依存分析树中的特定集合(目标词v的爷爷、父亲与孩子)

实验方案

评价标准1: We compute cosine similarity between the two vectors in each word pair, then order the word pairs by similarity and compute Spearman’s rank correlation coefficient (ρ) with the gold similarities
评价标准2: We use a metric based on unsupervised evaluation of POS taggers, and perform clustering and map each cluster to one POS tag so as to maximize tagging accuracy

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值