亚马逊联合纽约州立大学提出元学习算法MetaBridge用于电商有限标注数据情况下自动验证文本属性...

Automatic Validation of Textual Attribute Values in E-commerce Catalog by Learning with Limited Labeled Data

Yaqing Wang, Yifan Ethan Xu, Xian Li, Xin Luna Dong and Jing Gao

State University of New York at Buffalo, Amazon.com

https://dl.acm.org/doi/pdf/10.1145/3394486.3403303

产品目录在电子商务网站中是非常重要的资源。在目录中,产品跟多个属性都有关联,这些属性基本都是短文本,比如产品名,品牌,功能以及特点等。

通常,零售商会自报这些关键属性,因此,目录信息会不可避免的包含一些噪声。非常有必要验证这些属性的正确性,这有利于提升消费者的购物体验以及更高效的产品推荐。由于产品量非常大,所以需要高效且自动验证的方法。

这篇文章,提出一种自动验证方法,来验证产品文本属性的正确性。它可以作为一种文本属性跟商品画像之间交叉验证的任务,这里的产品画像是指电子商务网站中对商品进行描述的短文本信息。尽管现有的深层神经网络模型在交叉验证两段文本中已经取得不错的效果,但是这依赖大量高质量标注数据,而本文研究的验证任务很难获得大量标注数据,因为商品类别多种多样。由于类别不同,所有类别必须有标注,这在现实中不可能做到。

为了解决上述挑战,作者们提出一种新的元学习隐含变量方法,MetaBridge,这种方法可以从类别子集中学到迁移知识,只需要少量有标记的数据,并且可以从无标注样本中捕获未见类别的不确定信息。

这篇文章具有以下几个贡献

1. 在few-shot学习场景中,将具有多种类别前提下,验证商品文本属性的问题转为自然语言推理问题,提出一种元学习隐含变量模型,可以从商品画像和文本属性中联合处理两种信息。

2. 将元学习和隐含变量集成在一个统一模型中,高效捕捉多种类别中的不确定性。利用这种模型,标注成本可以显著缩减,因为这种模型可以充分利用有限类别中的标注数据。

3. 提出一种新的目标函数,该目标函数基于few-shot学习场景中的隐含变量模型,这可以保证无标注样本和标注样本分布的一致性,通过所学分布中采样不同的记录可以防止过拟合。

作者们在涵盖数百类别的真实电商数据上进行了大量实验,结果表明MetaBridge在文本属性验证中的有效性,相对STOA方法,表现也比较突出。

这篇文章的主要贡献如下

10469e6d5f9c52bb5f9a4fc3d12b999b.png

下面是问题定义

9b0816651bb31538c75e8d171490cdee.png

更详细的问题描述如下

5654e171058c3846385a1f2d49aca7ce.png

作者们所提模型的基础MAML简介如下

1e90504909736c5ea14217ea260b872d.png

maml的目标函数、局限性以及作者们的解决方案如下

a16c994b22cd53db630a9e1a1f15b4fe.png

作者们所提出的算法框架图示如下

34574365ef8635243232dbab9914b4a0.png

关于隐含变量模型,作者们采用了以下做法

3d972c70bb636a519144915ed28d69e8.png

8d176c490689bc03fa1085c514b1ed6b.png

下面是目标函数

940ea54e8005f0d9092fae3d26896141.png

模型训练伪代码如下

0d609a21efc4683aa7c474c7d4220fbb.png

数据集简介如下

5e9206e378d484881ce27238680fe76d.png

23eeb6d3c4a889f25ad72e2001f6e399.png

下面是数据集信息统计

a4452b522d9cffcf6731a0d67c8564b8.png

作者们采用的指标有以下两个指标

27d6de549187b3e09e29437ba2b72d35.png

为了证明所提方法的有效性,参与对比的方法有以下几个

960312a056aa0203c1fba58b7eb4cc65.png

b46a898ca4616070dcb81b62a4d55a3c.png

fad398e3274ba9334a2e678e8ba6f82e.png

0ce4a4a70890fc78c5a144364cf6511c.png

下面是一些实现细节

eee6c3f1ce12faf40cbf7c1b0c1f2bc3.png

几种方法的效果对比如下

36ebc41f86babe1aa315eabafec13801.png

关于消融实验,作者们得到以下效果

9162b9483158535c66e9a01d11dab0a7.png

不同的lambda对模型效果影响如下

eee086b6a648c1805a6540f787349f54.png

有标记样本数对模型效果影响如下

f785eca3f9c88b8486b5f7149c34e5c4.png


              be994c11bb7cf2edda135bf65a5aa778.png我是分割线dc9c0b053979db658e83f4573841d0af.png


您可能感兴趣

KDD2020|腾讯基于app使用行为提出AETN用于构建通用型user-embedding(已开源)

KDD2020|阿里联合武大提出对偶异构图注意力网络DHGAT用于提升长尾商铺搜索效果

KDD2020|蚂蚁金服提出人群扩展算法Hubble用于智能营销

实时注意力lookalike模型RALM在推荐系统中的应用

召回--联合训练树的索引和深层模型在推荐系统中的应用

深度神经网络在Youtube推荐中的应用--开篇作之一--含部分实用技巧

BERT深层双向Transformers预训练在语言理解中的应用

异构mini图网络在欺诈邀请检测中的应用(已开源)

社交表示在线学习算法DeepWalk(已开源)

聊聊常见的推荐系统演化过程

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值