智能消费导购与商品管控背后的“商品大脑”

最新推荐文章于 2020-12-15 19:59:49 发布

科技峰行者

最新推荐文章于 2020-12-15 19:59:49 发布

阅读量641

点赞数

文章标签：标准数据技术信息引擎

本文链接：https://blog.csdn.net/sunhf_csdn/article/details/80133237

版权

业务背景

随着时间的推移，在阿里巴巴生态里我们积累了海量的商品数据，这些宝贵的商品数据来自于淘宝、天猫、1688、AliExpress等多个市场。同时品牌商、行业运营、治理运营、消费者、国家机构、物流商等多种角色参与其中，形成了一个庞大的商品库。该商品库的规模在世界上首屈一指。如何使电商大数据真正的服务消费者？我们从知识产权保护角度和提升消费者购物体验的应用入手，选择了以知识图谱的理念重构电商核心数据，通过知识表示技术实现商品数据的标准化（商品规范的统一和商品信息的确定性）, 通过命名实体识别和实体链指技术与内外部数据之间的深度互联，通过逻辑推理校验图谱数据质量和进一步补全图谱关系，逻辑推理同时支持知识服务。

首先，阿里商品知识图谱承载着商品标准化这一基础性，根源性的工作。通过知识表示来规范对商品数据的描述。基于此，我们才能知道哪些商品是同样一件东西，我们才能确切地知道一个品牌是否被授权，品牌下的产品卖到了哪些市场，才能真正统计出品牌商单品的销量等信息。才能真正的运用大数据指导供应链端，使传统制造业也共享大数据时代带来的智能，帮助制造业升级。

其次，阿里知识图谱以商品、标准产品、标准品牌、标准条码、标准分类为核心，利用实体识别、实体链指和语义分析技术，整合关联了例如舆情、百科、国家行业标准等9大类一级本体，包含了百亿级别的三元组，形成了巨大的知识网。基于这个巨大的知识网络我们才能提升消费者购物体验，降低消费者判断的成本。（1）通过知识图谱的语义识别能力支持消费者通过自然语言交互购物，阿里小蜜和天猫精灵智能音箱都嵌入了这一功能。（2）场景化购物：例如消费者输入“海边玩买什么”，结果中就会出现泳衣、游泳圈、防晒霜、沙滩裙等商品。场景数据就是来源于知识图谱的知识网络和基于这个知识网络的挖掘技术。（3）购物确定性：以所见即所得的购物体验为目标，我们对商品的画像背后依赖的是商品知识图谱的知识网络。例如有痛风的消费者想要购买低嘌呤的食物，我们会对知识图谱里该商品的配料表，国家条码数据的配料表，商品图片的配料表等多源数据做交叉验证，最后根据国家标准对低嘌呤食物的定义，推过逻辑推理发现真正低嘌呤的食品。

再者，在马老师 “像治理酒驾一样治理假货”的号召下，借助阿里知识图谱的建设，阿里电商平台管控从过去的“巡检”模式升级为发布端实时逐一检查。在海量的商品发布量的挑战下，最大可能地借助大数据、人工智能阻止坏人、问题商品进入阿里生态。为了最大限度地保护知识产权，保护消费者权益，知识图谱推理引擎技术满足了智能化、自学习、毫秒级响应、可解释等更高地技术要求。实现了良好的社会效益。

总之，阿里知识图谱综合利用前沿的NLP、语义推理和深度学习等技术，打造全网商品智能服务体系，服务阿里生态中的各个角色。商品知识图谱广泛地应用于搜索、前端导购、平台治理、智能问答、品牌商运营等核心、创新业务。能够帮助品牌商透视全局数据，帮助平台治理运营发现假货，帮助行业基于确定的信息选品，做人货场匹配提高消费者购物体验等等。为新零售、国际化提供可靠的智能引擎。

架构解析

数据架构

商品域知识图谱以商品为核心，以人、货、场为主要框架。共涉及9类一级本体和27类二级本体。一级本体分别为：人、货、场、知识、行业竞对、品质、类目、资质和舆情。人货场构成了商品信息流通的闭环，其他主要本体给予商品更丰富的信息描述。商品知识图谱数据大图详见下图。包含国内-国外，商业-国家，线上-线下等多源数据。百亿级的节点和百亿级的边。

图片描述

智能识别（命名实体识别与链指）

智能识别是将文本信息与知识图谱关联的核心技术，能够从自然语言中识别抽取出电商域的核心实体。目前团队利用深度学习等算法已支持类目、品牌，产品，规格，型号，广告等大部分CPV实体和类别的识别与知识图谱链接。

图片描述

类目错放：智能识别引擎利用机器学习技术实时判别商品的分类信息，从而能够判断商品是否放错了类目，最终现在能避免部分商品的类目错放，防止商品规避类目管控。由于商品信息的不完整和避免误判影响卖家的发布体验，技术面临极大的挑战，我们引入深度学习等模型提高算法的覆盖度。

品牌堆砌：智能识别引擎利用前沿的自然语言处理技术从商品标题里识别品牌。例如自动发现下面的商品标题中出现了两个品牌：

同时我们面临问题商家的实时对弈，例如上图中爱马仕香奈儿无法发布，香奈儿快速变异成小香风，攻防速度快，对智能识别的自学习能力有了极高的要求。

此外我们还支持广告识别，虚假宣传识别，山寨品牌识别，换宝贝识别，SKU作弊识别，异常价格识别，资质例如3C，QS等证号校验等。

智能识别背后的技术

通常情况下，命名实体识别的研究主体一般包括3大类(实体类、时间类和数字类)和7小类(人名、地名、机构名、时间、日期、货币和百分比)命名实体。我们设计开发的智能识别系统具有跨域多实体识别能力，目前能够支持电商域数据、人机交互query以及更广泛的微博、新闻等舆情域数据的识别，并且把识别出的实体与知识图谱链接返回实体ID，目前，我们已经具备多种类型实体的识别和链接能力，主要包括如下：

商品域：类目、产品词、品牌、商品属性、属性值、标准产品。

LBS域：小区、超市、商场、写字楼、公司。

通用域：人物、数字、时间。

知识图谱前沿技术如何在阿里巴巴工业化场景大规模扩展，对技术的扩展性、灵活性要求很高。在前沿技术应用落地时，大规模标注数据的获取一直是智能识别的技术应用的瓶颈。对此我们和苏大合作项目今年被AAAI收录的论文《Adversarial Learning for Chinese NER from Crowd Annotations》基于对抗学习的众包标注用于中文命名实体识别解决了命名实体识别（NER）在工业界大规模扩展的问题。为这一瓶颈给出一个基于对抗学习的解决方案。为了解决大规模标注问题，目前广泛的采用众包模式。然而众包由于参与的人多且不是专家，面对像NER这种复杂的标注问题，可能不同的人标注的结果有差别。例如“苹果 Iphone X”和 “Iphone X” 都可能被标注成产品词。

该论文的创新点在于，受对抗学习框架的启发，如下图所示，右侧是一个基准系统。左侧是基于标注人员的对抗学习模型。基准系统是一个典型的被广泛用于NER技术的LSTM-CRF模型，左侧模型通过标准人员的对抗学习，能够发掘标注者中的公有特征，过滤点与标注者有依赖关系的噪音。

图片描述

推理引擎

阿里巴巴的业务知识/规则、管控知识/规则、国家行业规则错综复杂，我们设计了一套框架做知识表示和推理。此外：知识图谱实体、关系、词林（同义词、上下位词）、垂直知识图谱(例如地理位置图谱、材质图谱)、机器学习算法模型等都纳入进来做统一的描述。

按照不同场景，我们把推理分为：上下位和等价推理；不一致性推理；知识发现推理；本体概念推理等。例如

1.上下位和等价推理
检索父类时，通过上下位推理把子类的对象召回，同时利用等价推理（实体的同义词、变异词、同款模型等），扩大召回。例如，为保护消费者我们需要拦截 “产地为某核污染区域的食品”，推理引擎翻译为 “找到产地为该区域，且属性项与“产地”同义，属性值是该区域下位实体的食品，以及与命中的食品是同款的食品”。

2.不一致推理
在与问题卖家对弈过程中，我们需要对商品标题、属性、图片、商品资质、卖家资质中的品牌、材质、成分等基础信息，做一致性校验。比如说标题中的品牌是Nike而属性或者吊牌中品牌是Nake，如下图所示，左边描述了商品标题、属性、吊牌上的品牌信息是一致的，推理为一致。右边为吊牌和商品品牌不一致的商品，被推理引擎判断为有问题的商品。

图片描述

3.知识发现推理
一致性推理的目的是确保信息的确定性，例如通过一致性推理我们能确保数据覆盖到的食品配料表正确。但消费者购物时很少看配料表那些繁杂的数字。消费者真正关心的是无糖、无盐等强感知的知识点。为了提高消费者购物体验，知识发现推理通过底层配料表数据和国家行业标准例如
无糖：碳水化合物≤ 0.5 g /100 g（固体）或100 mL（液体）
无盐：钠≤5 mg /100 g 或100 mL
做逻辑推理。可以把配料表数据转化为“无糖”“无盐”等知识点。从而真正地把数据变成了知识。通过AB test验证，类似知识点在前端导购中极大地改善了消费者购物体验。

推理引擎背后整体框架如下图所示：

首先，推理引擎把自然语言通过语义解析(semantic parsing)转换为逻辑表达式(logical form)。语义解析采用了结合神经网络和符号逻辑执行的方式：自然语言经过句法、语法分析、 NER、 Entity Linking，被编码为分布式表示(distributed representation)，句子的分布式表示被进一步转义为逻辑表达式。

在分布式表示转换为逻辑表达式的过程中，我们首先面临表示和谓词逻辑(predicate)操作之间映射的问题。我们把谓词当做动作，通过训练执行symbolic operation，类似neural programmer中利用attention机制选择合适的操作，即选择最有可能的谓词操作，最后根据分析的句法等把谓词操作拼接为可能的逻辑表达式，再把逻辑表达式转换为查询等。过程示意如下图所示。

图片描述

其次，逻辑表达式会触发后续的逻辑推理和图推理。逻辑表达式在设计过程中遵循以下几个原则：逻辑表达式接近人的自然语言，同时便于机器和人的理解。表达能力满足知识图谱数据、知识表示的要求。应该易于扩展，能够非常方便的增加新的类、实体和关系，能够支持多种逻辑语言和体系，如Datalog、OWL等，即这些语言及其背后的算法模块是可插拔的，通过可插拔的功能，推理引擎有能力描述不同的逻辑体系。

以上下位和等价推理为例：“产地为中国的食品”，”
用逻辑表达式描述为：
∀ x: 食物(x) ⊓ (∀ y: 同义词(y，产地)) (x, (∀ z: 包括下位实体(中国, z)))
随后找同款：
∀ t, x: (∃ c:属于产品 (x, c) ⊓属于产品(t, c))

此外，推理引擎还用于知识库自动补全。我们基于embedding做知识库补全。主要思路是把知识库中的结构信息等加入embedding，考虑了 Trans系列的特征，还包括边、相邻点、路径、实体的文本描述 (如详情)、图片等特征，用于新关系的预测和补全。