简述
总的来讲,就是将有点击的Query-Document(摘要)看成源语言和目标语言,用翻译模型计算二者的短语与短语之间的对齐关系,扩展Query的同时起到消歧的作用。
文档名称:Query Rewriting using Monolingual Statistical Machine Translation
技巧
由于Query与文档之间,一般来讲并非严格对齐,需要对翻译模型作一些特别的设置,来防止过多噪音,其中包括:
1、调高某词翻译为空的参数
2、训练过程中,当且仅当一个短语,在Query到文档的对齐结果,与文档到Query结果一致的情况下,才调整其对齐关系
语言模型仅通过Query训练,使得扩展后的短语,看起来更像一个Query而不是文档。
应用
取best-N之后,原始Query中的词,会各自扩展出数个同义词,且扩展出的每个路径,理论上都符合语言模型,逻辑如所示: