陈宏申:浅谈京东电商商品文案挖掘难点与优化实践

本文探讨了京东电商平台在商品文案挖掘中面临的两大挑战:生成结果不可靠和数据坍塌,以及对应的优化方案。通过引入文案摘要清洗系统、文案生成系统和文案质量评估系统,构建了一个电商商品文案挖掘框架。文章详细介绍了文案摘要清洗系统中的自对抗筛选模型和级联筛选优化,以及文案生成系统中采用超大规模预训练模型和后验式蒸馏技术提升中长尾商品文案质量的实践。
摘要由CSDN通过智能技术生成

file


导读: 在电商推荐中,除了推送商品的图片和价格信息外,文案也是商品非常重要的维度。基于编码器解码器范式的序列文本生成模型是文案挖掘的核心,但该种方法面临着两大技术挑战:一是文案生成结果不可靠和生成质量不可控,无法满足业务对电商商品文案内容可靠性的严格要求;二是序列文本生成模型经常面临数据坍塌,比较容易生成万金油式的安全文案,文案内容本身的多样性会越来越低,且无法捕捉语言本身的流行或演化趋势。针对以上两大挑战,在以文案生成系统为核心的基础上,引入了文案摘要清洗系统和文案质量评估系统,总结提出了一个通用的电商商品文案挖掘方案。今天将和大家分享京东电商平台的电商商品文案挖掘的优化实践,包括以下几方面内容:

  • 电商商品文案挖掘的挑战和方案框架
  • 电商商品文案摘要清洗系统的优化实践
  • 电商商品文案生成系统的优化实践
  • 电商商品文案质量评估系统的优化实践

01 电商商品文案挖掘的挑战和方案框架

1. 电商商品文案的应用场景

首先来看一下电商商品文案的应用场景。

file

电商商品文案不仅可以用于描述商品的独特卖点,同时可以用于介绍商品的一些特质。根据电商商品文案的长度,可分为短文案和长文案。例如,15字的短文案可以体现茅台酒、手机的卖点,同时也描述了商品的特点;百余字的长文案可以描述眼霜、一本书等。

2. 电商商品文案挖掘的两大挑战

基于编码器解码器范式的序列文本生成模型可以用于文案挖掘,就是把商品的一些信息,例如标题、类别等进行模型投喂,然后直接拿某种类型的文案作为一个参考答案进行模型训练和学习。毫无疑问,基于编码器解码器范式的序列文本生成模型,肯定是文案挖掘的核心,但是在业务实践中,该种方法存在两个方面的技术挑战。

file

序列文本生成模型天然存在生成结果不可靠、生成质量不可控的问题,而京东电商平台对电商商品文案的内容本身的可靠性有着相对严格的要求,这就面临第一个技术挑战:文本生成质量如何控制。

另一个问题是序列文本生成模型经常容易面临数据坍塌。在业务实践中观察序列文本生成模型的结果,经常能看到:如果文本生成的业务场景比较复杂或者编码解码问题本身比较难,序列文本生成模型越倾向于生成那种频率比较高、相对平均且安全的文案;而且该模型在推上线运行后,会学习它自己已经生成的线上文案,长此以往,该模型越会生成那种万金油式的安全文案,线上文案的内容本身的多样性会随着系统的运行越来越低。另外,序列文本生成模型由于模型本身的设计,也不太容易捕捉语言本身的流行或者演化趋势,比如一些新词、新的流行语或时尚一点的东西,该模型都不太可能捕捉得到。这是电商商品文案挖掘的应用实践中面临的第二个巨大技术挑战。

3. 电商商品文案挖掘方案框架

file

根据业务实践,总结提出了一个通用的电商商品文案挖掘方案框架,如上图所示,挖掘方案的核心是文案生成系统;在此基础上针对文案挖掘的两大技术挑战,引入了文案摘要清洗系统和文案质量评估系统。

文案摘要清洗系统核心解决的是数据坍塌,没有新的资源引入和没有新的创作素材的问题,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值