搜索推荐算法国际化的挑战与尝试

国际化是近年来阿里巴巴集团最重要的战略方针之一。什么是国际化?国际化就是提升一个业务的全球用户渗透率的过程。一个有国际化能力的团队,必须要能根据不同国家的市场差异化,以及潜在的竞争对手,在业务上以及技术上不断创新,同时以创业团队的思维来保有开放竞争的心态和生存意识,周而复始的打造足够竞争的壁垒和值得长期投入的业务。

AE的国化技术创

AliExpress作为阿里巴巴集团国际化B2C业务的领航员,目前已成功拓展业务到全球200多个国家,拥有全球过亿用户(参见图一)。当前,AE整个系统已经做到规模化,但我们的运营成本却不会成十倍或者是百倍地增长,这一切都仰赖于打造出来的标准化、轻量、低耦合以及整合集团多种技术的跨境交易平台。

具体来说,就在这个平台之上,我们建立了标准化微服务研发体系[5],这套体系能让我们持续保有高研发效率,高适应性,以阶段性业务结果驱动持续创新并且快速试错,比如说,我们在很短的时间内在俄罗斯使用我们的平台快速搭建并且尝试了数种不同的电商业务模式。最后终于找到了最佳的方式并且带来了快速的利润成长。这些尝试所需要的系统开发都是少量,并且我们在俄罗斯的工程师人数也不多。

除此之外,我们在技术上取得了相当多的创新。举例而言,象是多租户架构,区域化部署,多端融合,以及各式各样的搜索推荐算法在国际化场景下的升级。这每一个创新都是相当复杂,需要大篇幅的介绍,所以本文只选择聚焦在国际化场景下的算法创新,这些算法创新都是因应国际化所带来的新挑战。以下将详述这些挑战。

搜索推荐算法国际化的挑战与尝试

AliExpress的规模

算法推荐在国化遇到的挑尝试

一:不同国家、人群、文化的差异性造成购买商品非常不一

我们来看一些数据,图二显示了在不同的国家,人民的购买行为。蓝色代表用户每单购买商品数,灰色代表客单价。从这个图表我们可以明显的可以看出来人民的购买行为在不同的国家差异性是很大的。比如说美国人喜欢买很多商品,但是单价比较低。法国人买的东西比较少,然而却喜欢买贵的东西。另外我们比较了在这些国家的前一千名热销商品,重合度紧紧只有百分之五左右。也就是说不同的国家,人群,语言,文化等所造成的环境差异性,再加上竞争,消费能力等地区差异性,人民最终购买的商品非常不一样,大大提高了我们国际化团队给全球消费者打造搜索推荐产品好体验的难度。

搜索推荐算法国际化的挑战与尝试

不同国家的购买力行为分布,蓝色代表用户购买商品数,灰色代表件单价

二:海外移端普及性不高机房全球化部署挑

要做到国家个性化以及本地商机发掘,首先我们要能建立流量及人群画像,并且画像中的特征要能够做到实时数据积累。但是,这并不是一件容易的事。一方面,与国内移动端的用户已占绝大多数不同,在许多国家PC端或者Mobile Web端还是有一定比例的使用人群。在这些人群中新用户或者未注册的用户只能用cookie id 去追踪,把不同的cookie id关联起来,或者是cookie id和无线端的device id关联起来,我们需要发展cross device id mapping的技术。另一方面,实时数据积累需要快速地回应及存储,我们必须要有多机房以及全球区域化部署的机制,让所有的画像数据能快速地存处和同步 [4]。

搜索推荐算法国际化的挑战与尝试

国家差异化的用户体验

三:量大,但国家覆盖度不足

AE虽然在全球已有相当大量的注册用户,但是在许多国家的覆盖度还是不够。这和淘宝天猫目前的运营情况是大不相同的,淘宝天猫已是中国第一大电商平台,所累积的商品讯息已经非常庞大,目前所需要的是更精细化的运营,以最尖端的机器学习算法加上大数据来完善最不同场景下的个性化模型。

但是我们在AE个性化搜索推荐模型的设计上还得要考虑大量的新用户所造成的冷启动问题。目前我们正在使用exploration/exploitation Multi-armed bandit(MAB)的技术,将新用户实时反馈的行为数据,不段尝试挖掘出最佳的排序及推荐策略。另外我们也自己开发出来了一套图搜引擎,可以把站外爬取热销商品和热搜词所对应的商品,快速地对齐到我们AE里面的自有商品,同时我们也要求为我们站外引流的站长提供更多的用户画像数据,象是用户拜访过网页的关键字等等。这些额外的数据,都可以成为我们正在尝试的迁移学习,co-training等技术提供更多的训练样本。

搜索推荐算法国际化的挑战与尝试

以数据驱动的算法技术框架

一步尝试

为了进一步提升推荐算法的精准度,我们也正在大力投入自然语言的研究,象是多语种翻译以及多语言语意分析等等。AE与阿里巴巴内部多个团队正在紧密合作,如与iDST的自然语言团队正在密切合作,提升机器翻译质量的部分已有不少的进展,新使用神经网络翻译模型(Neural Machine Translation, NMT)对比于传统的统计翻译模型(Statistical Machine Translation, SMT)在翻译准确度和业务效果双双表现正向,目前已全量上线。我们并且打算在全球各地招募不同语种的翻译专才以再精进目前的翻译质量。另外,NLP团队正在尝试使用最新的Deep Learning模型,象是CDSSM在中心词提取,以及Bi-LSTM+CRF在语义分析(NER)上,目前在脱机评测都有相当显著的效果提升,在线AB测试正在进行中。

寻找热爱技术的你

AliExpress流量搜索导购团队现招聘算法专家,工程人员,以及实习生,负责多语言国家本地化场景下商品搜索推荐算法的实现,以及流量调控,用户行为分析等深入研究。

工作地点杭州。要求具备扎实具备扎实的机器学习 、自然语言处理、数据挖掘、分布式计算理论基础以及丰富的研发经验,熟悉Hadoop,Spark,Storm,Flink等开源大数据技术者优先。感兴趣的同学可以email简历给kuang-chih.lee@alibaba-inc.com,或者通过以下官网网址投递简历:

Aliexpress-搜索算法高级专家

https://job.alibaba.com/zhaopin/position_detail.htm?positionId=34683

Aliexpress-Java开发技术专家

https://job.alibaba.com/zhaopin/position_detail.htm?positionId=44706

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值