电商场景下,AI 真的懂你的购物意图吗?

近年来,人工智能(AI)技术飞速发展,大型语言模型(LLM)在各个领域展现出惊人的能力。在电商领域,LLM 能够帮助我们进行商品推荐、回答用户问题,甚至理解用户的购物意图。但一个关键问题是:LLM 真的能够理解用户的购物意图吗?它们是否能够像人类一样,从用户的行为中推断出背后的深层含义?

为了回答这个问题,香港科技大学的研究人员开发了一个名为 INTENTIONQA 的基准测试集,专门用于评估 LLM 在电商场景下理解用户购物意图的能力。INTENTIONQA 包含 4,360 道精心设计的问答题,涵盖了三个难度级别,并通过自动化流程确保其可扩展性,使其能够应用于大型电商平台。

INTENTIONQA:双任务多选问答

INTENTIONQA 基准测试集包含两个任务:意图理解意图利用。这两个任务分别评估 LLM 理解和利用用户购物意图的能力。

意图理解 任务要求 LLM 根据用户购买的商品推断出用户的购物意图。例如,用户购买了耳机和耳垫,LLM 需要从多个选项中选择最有可能的购物意图,例如“为了获得更舒适的佩戴体验”或“为了增强音质”。

意图利用 任务则要求 LLM 根据用户意图和已购买的商品,预测用户最有可能购买的额外商品。例如,用户购买了耳机,并且意图是“为了获得更舒适的佩戴体验”,LLM 需要从多个选项中选择最有可能的额外商品,例如“头带垫”或“耳罩”。

构建 INTENTIONQA:自动化流程和人工评估

INTENTIONQA 的构建过程主要依赖于自动化流程,并结合人工评估来确保其质量。

自动化流程 利用了现有的意图知识库 FolkScope 和事件知识图 ASER。FolkScope 收集了用户购买商品的行为和对应的购物意图,而 ASER 则包含了大量常见的事件和事件之间的关系。

研究人员首先将 FolkScope 中的意图和商品映射到 ASER 中的事件节点,并计算它们之间的相似度。然后,根据相似度,自动生成问答题,并为每个问题提供三个干扰选项。

人工评估 则用于验证自动化流程的有效性和 INTENTIONQA 的质量。研究人员招募了人工标注员,对生成的问答题进行评估,包括判断答案的正确性和干扰选项的质量。

实验结果:LLM 的挑战和机遇

研究人员对 19 个不同类型的 LLM 进行了评估,包括预训练模型、注入常识知识的模型、开源模型以及使用 API 的模型。结果表明,LLM 在 INTENTIONQA 上取得了比随机猜测更好的成绩,但与人类的表现相比仍有较大差距。

实验结果表明:

  • 注入常识知识有助于提升 LLM 的意图理解能力。 注入常识知识的模型在 INTENTIONQA 上的表现与规模更大的模型相当,这表明常识知识对于电商场景下的意图理解至关重要。
  • 意图利用任务比意图理解任务更具挑战性。 几乎所有在意图理解任务上表现优于随机猜测的模型,在意图利用任务上的表现都有显著下降。这可能是因为意图利用任务需要 LLM 理解所有候选商品,并进行更复杂的推理。
  • 当前 LLM 的意图理解能力仍有待提升。 尽管 LLM 在 INTENTIONQA 上取得了比随机猜测更好的成绩,但与人类的表现相比仍有较大差距。

研究人员还发现, 通过在外部资源上进行微调,可以显著提升 LLM 的意图理解能力。例如,在包含商品图片的意图知识库 MIND 上进行微调,可以使 LLM 在意图理解任务上的表现接近 GPT-4。

未来展望:意图感知的电商服务

INTENTIONQA 的出现为评估 LLM 在电商场景下理解用户意图的能力提供了一个新的基准测试集。研究结果表明,LLM 在意图理解方面仍面临着挑战,但同时,也展现出了巨大的潜力。

未来,研究人员将继续探索如何提升 LLM 的意图理解能力,并将其应用于电商服务中,例如:

  • 意图感知的商品推荐: 根据用户的意图,推荐更符合用户需求的商品。
  • 意图感知的搜索引擎: 理解用户的搜索意图,提供更精准的搜索结果。
  • 意图感知的客服机器人: 理解用户的意图,提供更有效的客服服务。

随着 LLM 技术的不断发展,我们相信,意图感知的电商服务将成为未来电商发展的重要方向。

参考文献

  • Ding, W., Wang, W., Kwok, S. H. D., Liu, M., Fang, T., Bai, J., … & Song, Y. (2024). INTENTIONQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce. arXiv preprint arXiv:2406.10173.

  • Yu, J., Zhang, Y., Tan, C., & Song, Y. (2023). Folkscope: Distilling Purchase Intentions from Large Language Models for E-commerce. arXiv preprint arXiv:2303.10677.

  • Zhang, Y., Wang, W., Song, Y., & Kwok, S. H. D. (2022a). ASER: A Large-Scale Eventuality Knowledge Graph. arXiv preprint arXiv:2206.03901.

  • Zhou, Y., Zhang, Y., Yu, J., & Song, Y. (2024). Towards Human-Centric Purchase Intention Comprehension: A Critical Analysis of Large Language Models. arXiv preprint arXiv:2403.06981.

  • Xu, Y., Zhang, Y., Yu, J., & Song, Y. (2024). MIND: A Multimodal Intention Knowledge Base for E-commerce. arXiv preprint arXiv:2404.05261.

  • Xu, Y., Wang, W., Song, Y., & Kwok, S. H. D. (2021). Towards Automatic Threshold Tuning for Knowledge Base Completion. arXiv preprint arXiv:2104.07632.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

步子哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值