电商场景下，AI 真的懂你的购物意图吗？-CSDN博客

本文链接：https://blog.csdn.net/weixin_36829761/article/details/139757595

近年来，人工智能（AI）技术飞速发展，大型语言模型（LLM）在各个领域展现出惊人的能力。在电商领域，LLM 能够帮助我们进行商品推荐、回答用户问题，甚至理解用户的购物意图。但一个关键问题是：LLM 真的能够理解用户的购物意图吗？它们是否能够像人类一样，从用户的行为中推断出背后的深层含义？

为了回答这个问题，香港科技大学的研究人员开发了一个名为 INTENTIONQA 的基准测试集，专门用于评估 LLM 在电商场景下理解用户购物意图的能力。INTENTIONQA 包含 4,360 道精心设计的问答题，涵盖了三个难度级别，并通过自动化流程确保其可扩展性，使其能够应用于大型电商平台。

INTENTIONQA：双任务多选问答

INTENTIONQA 基准测试集包含两个任务：意图理解 和 意图利用。这两个任务分别评估 LLM 理解和利用用户购物意图的能力。

意图理解 任务要求 LLM 根据用户购买的商品推断出用户的购物意图。例如，用户购买了耳机和耳垫，LLM 需要从多个选项中选择最有可能的购物意图，例如“为了获得更舒适的佩戴体验”或“为了增强音质”。

意图利用 任务则要求 LLM 根据用户意图和已购买的商品，预测用户最有可能购买的额外商品。例如，用户购买了耳机，并且意图是“为了获得更舒适的佩戴体验”，LLM 需要从多个选项中选择最有可能的额外商品，例如“头带垫”或“耳罩”。

构建 INTENTIONQA：自动化流程和人工评估

INTENTIONQA 的构建过程主要依赖于自动化流程，并结合人工评估来确保其质量。

自动化流程 利用了现有的意图知识库 FolkScope 和事件知识图 ASER。FolkScope 收集了用户购买商品的行为和对应的购物意图，而 ASER 则包含了大量常见的事件和事件之间的关系。

研究人员首先将 FolkScope 中的意图和商品映射到 ASER 中的事件节点，并计算它们之间的相似度。然后，根据相似度，自动生成问答题，并为每个问题提供三个干扰选项。

人工评估 则用于验证自动化流程的有效性和 INTENTIONQA 的质量。研究人员招募了人工标注员，对生成的问答题进行评估，包括判断答案的正确性和干扰选项的质量。

实验结果：LLM 的挑战和机遇

研究人员对 19 个不同类型的 LLM 进行了评估，包括预训练模型、注入常识知识的模型、开源模型以及使用 API 的模型。结果表明，LLM 在 INTENTIONQA 上取得了比随机猜测更好的成绩，但与人类的表现相比仍有较大差距。

实验结果表明：

注入常识知识有助于提升 LLM 的意图理解能力。 注入常识知识的模型在 INTENTIONQA 上的表现与规模更大的模型相当，这表明常识知识对于电商场景下的意图理解至关重要。
意图利用任务比意图理解任务更具挑战性。 几乎所有在意图理解任务上表现优于随机猜测的模型，在意图利用任务上的表现都有显著下降。这可能是因为意图利用任务需要 LLM 理解所有候选商品，并进行更复杂的推理。
当前 LLM 的意图理解能力仍有待提升。 尽管 LLM 在 INTENTIONQA 上取得了比随机猜测更好的成绩，但与人类的表现相比仍有较大差距。

研究人员还发现， 通过在外部资源上进行微调，可以显著提升 LLM 的意图理解能力。例如，在包含商品图片的意图知识库 MIND 上进行微调，可以使 LLM 在意图理解任务上的表现接近 GPT-4。

未来展望：意图感知的电商服务

INTENTIONQA 的出现为评估 LLM 在电商场景下理解用户意图的能力提供了一个新的基准测试集。研究结果表明，LLM 在意图理解方面仍面临着挑战，但同时，也展现出了巨大的潜力。

未来，研究人员将继续探索如何提升 LLM 的意图理解能力，并将其应用于电商服务中，例如：

意图感知的商品推荐： 根据用户的意图，推荐更符合用户需求的商品。
意图感知的搜索引擎： 理解用户的搜索意图，提供更精准的搜索结果。
意图感知的客服机器人： 理解用户的意图，提供更有效的客服服务。

随着 LLM 技术的不断发展，我们相信，意图感知的电商服务将成为未来电商发展的重要方向。

参考文献

Ding, W., Wang, W., Kwok, S. H. D., Liu, M., Fang, T., Bai, J., … & Song, Y. (2024). INTENTIONQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce. arXiv preprint arXiv:2406.10173.
Yu, J., Zhang, Y., Tan, C., & Song, Y. (2023). Folkscope: Distilling Purchase Intentions from Large Language Models for E-commerce. arXiv preprint arXiv:2303.10677.
Zhang, Y., Wang, W., Song, Y., & Kwok, S. H. D. (2022a). ASER: A Large-Scale Eventuality Knowledge Graph. arXiv preprint arXiv:2206.03901.
Zhou, Y., Zhang, Y., Yu, J., & Song, Y. (2024). Towards Human-Centric Purchase Intention Comprehension: A Critical Analysis of Large Language Models. arXiv preprint arXiv:2403.06981.
Xu, Y., Zhang, Y., Yu, J., & Song, Y. (2024). MIND: A Multimodal Intention Knowledge Base for E-commerce. arXiv preprint arXiv:2404.05261.
Xu, Y., Wang, W., Song, Y., & Kwok, S. H. D. (2021). Towards Automatic Threshold Tuning for Knowledge Base Completion. arXiv preprint arXiv:2104.07632.