近年来,人工智能(AI)技术飞速发展,大型语言模型(LLM)在各个领域展现出惊人的能力。在电商领域,LLM 能够帮助我们进行商品推荐、回答用户问题,甚至理解用户的购物意图。但一个关键问题是:LLM 真的能够理解用户的购物意图吗?它们是否能够像人类一样,从用户的行为中推断出背后的深层含义?
为了回答这个问题,香港科技大学的研究人员开发了一个名为 INTENTIONQA 的基准测试集,专门用于评估 LLM 在电商场景下理解用户购物意图的能力。INTENTIONQA 包含 4,360 道精心设计的问答题,涵盖了三个难度级别,并通过自动化流程确保其可扩展性,使其能够应用于大型电商平台。
INTENTIONQA:双任务多选问答
INTENTIONQA 基准测试集包含两个任务:意图理解 和 意图利用。这两个任务分别评估 LLM 理解和利用用户购物意图的能力。
意图理解 任务要求 LLM 根据用户购买的商品推断出用户的购物意图。例如,用户购买了耳机和耳垫,LLM 需要从多个选项中选择最有可能的购物意图,例如“为了获得更舒适的佩戴体验”或“为了增强音质”。
意图利用 任务则要求 LLM 根据用户意图和已购买的商品,预测用户最有可能购买的额外商品。例如,用户购买了耳机,并且意图是“为了获得更舒适的佩戴体验”,LLM 需要从多个选项中选择最有可能的额外商品,例如“头带垫”或“耳罩”。
构建 INTENTIONQA:自动化流程和人工评估
INTENTIONQA 的构建过程主要依赖于自动化流程,并结合人工评估来确保其质量。
自动化流程 利用了现有的意图知识库 FolkScope 和事件知识图 ASER。FolkScope 收集了用户购买商品的行为和对应的购物意图,而 ASER 则包含了大量常见的事件和事件之间的关系。
研究人员首先将 FolkScope 中的意图和商品映射到 ASER 中的事件节点,并计算它们之间的相似度。然后,根据相似度,自动生成问答题,并为每个问题提供三个干扰选项。
人工评估 则用于验证自动化流程的有效性和 INTENTIONQA 的质量。研究人员招募了人工标注员,对生成的问答题进行评估,包括判断答案的正确性和干扰选项的质量。
实验结果:LLM 的挑战和机遇
研究人员对 19 个不同类型的 LLM 进行了评估,包括预训练模型、注入常识知识的模型、开源模型以及使用 API 的模型。结果表明,LLM 在 INTENTIONQA 上取得了比随机猜测更好的成绩,但与人类的表现相比仍有较大差距。
实验结果表明:
- 注入常识知识有助于提升 LLM 的意图理解能力。 注入常识知识的模型在 INTENTIONQA 上的表现与规模更大的模型相当,这表明常识知识对于电商场景下的意图理解至关重要。
- 意图利用任务比意图理解任务更具挑战性。 几乎所有在意图理解任务上表现优于随机猜测的模型,在意图利用任务上的表现都有显著下降。这可能是因为意图利用任务需要 LLM 理解所有候选商品,并进行更复杂的推理。
- 当前 LLM 的意图理解能力仍有待提升。 尽管 LLM 在 INTENTIONQA 上取得了比随机猜测更好的成绩,但与人类的表现相比仍有较大差距。
研究人员还发现, 通过在外部资源上进行微调,可以显著提升 LLM 的意图理解能力。例如,在包含商品图片的意图知识库 MIND 上进行微调,可以使 LLM 在意图理解任务上的表现接近 GPT-4。
未来展望:意图感知的电商服务
INTENTIONQA 的出现为评估 LLM 在电商场景下理解用户意图的能力提供了一个新的基准测试集。研究结果表明,LLM 在意图理解方面仍面临着挑战,但同时,也展现出了巨大的潜力。
未来,研究人员将继续探索如何提升 LLM 的意图理解能力,并将其应用于电商服务中,例如:
- 意图感知的商品推荐: 根据用户的意图,推荐更符合用户需求的商品。
- 意图感知的搜索引擎: 理解用户的搜索意图,提供更精准的搜索结果。
- 意图感知的客服机器人: 理解用户的意图,提供更有效的客服服务。
随着 LLM 技术的不断发展,我们相信,意图感知的电商服务将成为未来电商发展的重要方向。
参考文献
-
Ding, W., Wang, W., Kwok, S. H. D., Liu, M., Fang, T., Bai, J., … & Song, Y. (2024). INTENTIONQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce. arXiv preprint arXiv:2406.10173.
-
Yu, J., Zhang, Y., Tan, C., & Song, Y. (2023). Folkscope: Distilling Purchase Intentions from Large Language Models for E-commerce. arXiv preprint arXiv:2303.10677.
-
Zhang, Y., Wang, W., Song, Y., & Kwok, S. H. D. (2022a). ASER: A Large-Scale Eventuality Knowledge Graph. arXiv preprint arXiv:2206.03901.
-
Zhou, Y., Zhang, Y., Yu, J., & Song, Y. (2024). Towards Human-Centric Purchase Intention Comprehension: A Critical Analysis of Large Language Models. arXiv preprint arXiv:2403.06981.
-
Xu, Y., Zhang, Y., Yu, J., & Song, Y. (2024). MIND: A Multimodal Intention Knowledge Base for E-commerce. arXiv preprint arXiv:2404.05261.
-
Xu, Y., Wang, W., Song, Y., & Kwok, S. H. D. (2021). Towards Automatic Threshold Tuning for Knowledge Base Completion. arXiv preprint arXiv:2104.07632.