翻译模型用于Query改写

本文介绍了一种利用单语种统计机器翻译进行查询重写的方法,该方法可以扩展查询并解决歧义问题。通过对有点击记录的查询-文档对进行处理,将查询与文档间的对齐关系用于查询的扩展,同时采用特定技巧减少噪音,并通过专门针对查询训练的语言模型确保扩展后的短语更接近查询而非文档。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简述

总的来讲,就是将有点击的Query-Document(摘要)看成源语言和目标语言,用翻译模型计算二者的短语与短语之间的对齐关系,扩展Query的同时起到消歧的作用。

文档名称:Query Rewriting using Monolingual Statistical Machine Translation

技巧

由于Query与文档之间,一般来讲并非严格对齐,需要对翻译模型作一些特别的设置,来防止过多噪音,其中包括:

1、调高某词翻译为空的参数

2、训练过程中,当且仅当一个短语,在Query到文档的对齐结果,与文档到Query结果一致的情况下,才调整其对齐关系

语言模型仅通过Query训练,使得扩展后的短语,看起来更像一个Query而不是文档。

应用

取best-N之后,原始Query中的词,会各自扩展出数个同义词,且扩展出的每个路径,理论上都符合语言模型,逻辑如所示:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值