背景
主要去进行query的相关搜索补充;
例如
我们引入生成查询推荐(GQR)系统。 GQR以大语言模型为基础,利用大语言模型的提示能力,通过提示中提供的几个例子(检索或手工)来理解推荐任务。
方案
Generative Query Recommendation (GQR)
- prompt 就是几个给定的推荐例子 然后用 prompt方式 生成推荐词
- 例子是人工写的 包含多个方面
研究问题
RQ1:与现有查询推荐系统相比,我们提出的 GQR 系统能否生成相关且有用的查询推荐?
答案: 有
RQ2:我们的 GQR 系统生成的查询是否比其他系统生成的查询更能吸引用户?
答案: 有
文中给的例子是:
传统方式:瑞安航空支持、瑞安航空联系方式、瑞安航空客户服务
LLM生成:瑞安航空的职业、瑞安航空的历史 要好吧 我感觉起来
在我看来 LLM可能还有点宽泛了, 但是作者认为这种更加吸引
RQ3:我们的 GQR 系统是否会为长尾(即罕见的)查询生成建议?
答案: 有, LLM 每个都能生成
RQ4:查询日志仍然能为生成查询推荐带来价值吗?
答案:虽然查询日志不再重要,但行为数据仍然有助于增强生成查询推荐系统的性能
实验
评价:
-
清晰度 Simplified Clarity Score (SCS)
-
信息增益 NDCG(归一化折扣累计增益Normalized Discounted Cumulative Gain)
-
人工结果
聘请了 12 名专业注释者,提供系统 1、系统 2 和 GQR (GPT-3) 生成的建议。 将注释者分为三组,即每组四个注释者。 我们还将从查询日志中随机采样的 192 个查询随机划分为上述三组,最终每组有 64 个查询。然后匿名标注
结果
- 推荐的清晰度
- 信息增益
- 人工评估
都是优
个人心得
- 提出的生成查询推荐(GQR)本质就是prompt的 few shot
- 提出的RA-GQR (GPT-3) 本质就是 通过 给的shot 是通过相似性检索而来的
- 以过往经验: gpt4+ fewshot 效果 一般不如 拿业务数据 sft 一个7B小模型, 效果堪忧, 名字倒是取得很好,范围也大