神策数据胡士文：数据智能驱动业务实践

神策数据

于 2020-04-08 16:30:00 发布

阅读量642

点赞数 1

本文链接：https://blog.csdn.net/sensorsdata/article/details/105401215

版权

本文根据神策数据算法工程师胡士文，以《数据智能驱动业务实践》为主题的演讲整理而成，将为您重点介绍以下内容：

依据场景解读如何应用数据智能？
Case 1：如何通过机器学习，促进付费用户识别，提高付费转化率？
Case 2：如何预测用户核销优惠券概率，提高利润？
Case 3：如何利用深度学习实现千人千面的推荐系统？
神策智能推荐如何实现业务闭环？

一、深入浅出——如何理解数据智能？

数据驱动的三种常见方法：数据统计报表、实时多维数据分析、数据智能——机器预测未来。

前两种方法的共性是人分析数据，人从数据中做出决策，第三种方法是今天的主题——机器分析数据，最终产生决策，所以机器产生最后的决策，是数据智能的重要特征之一。

通过关键词来阐述数据智能的概念：数据智能是使用机器学习的方法，从海量数据中进行挖掘，提取出对业务有帮助的决策，目的是预测和决策，而非分析或者展示；并且这些决策的效果能通过一些指标进行评估，所以效果评估是数据智能中的重要一环；最终的评估结果又能作为数据源参与到下一次的策略迭代中，从而使整个数据智能形成一个闭环。

数据智能的目的是什么呢？做决策、角色评估、评估返回数据、使整个数据智能形成闭环。（如下图）

二、场景解读——数据智能常见的应用场景是什么？

第一类：用户画像——用户预测

1. 作弊用户预测

预测并识别作弊用户。

2. 流失用户预测

如果我能够比较准确的识别出流失用户，就能针对这一批用户做出针对性的挽回措施，从而提升整个用户留存。

3. 付费用户预测

在运营活动中，如果精准的识别出我的哪一批用户具有付费意愿，就能相对提高整个运营效率。

第二类：产品特征——内容理解

1. 新闻分类

例如，我们使用今日头条、腾讯新闻等新闻平台时，会有不同的分类板块，如在娱乐、体育等分区频道下看到相应的娱乐和体育新闻，这也是数据智能在新闻分类中的技术应用。

2. 舆情分析

以爆发一件公共的事件为例，事件的主角会到各大平台发布讯息，关于这件事件，对于他们自身来说，舆论到底是正向还是负向的？

假设华为 Mate 20 新上市，公司想知道在微博这个平台，大家对于这款手机的评价到底是正面还是负面的？如果是负面的，下一步就是用户关注的负面点是什么？这样对公司而言，能更好地指导这款手机下一次的迭代。

3. 歌单自动生成

在音乐 App 里面，歌单通常都是由运营或者用户通过自身的经验来生成的，其实依赖经验的方法未必是最优的，现在应用机器学习自动从数据中挖掘出歌曲的相关性，通过一些聚类的方法自动生成歌单，也是一个很有意思的应用场景。

第三类：人-物匹配——用户 + 内容

在很多的产品里面，核心问题都是如何把用户和内容匹配起来。内容有多种多样的形式，有企业本身推荐给用户的新闻商品、游戏小说等，也有用户运营活动，优惠券等推荐，甚至给用户发送短信也可称之为内容推荐。

数据和用户匹配的典型场景包括以下三种：

1. 智能推荐

2. 个性化 push

3. 智能运营

三、实际案例

「神策数据和电商客户深度合作案例——双 11 活动」

对于现在的电商企业来说，双 11 是一个非常重要的活动，如果我们站在老板或运营的角度，势必就会提出这么一个问题——双 11 的活动如何做才能成功？

企业期望提升的核心指标包括：付费用户数，成单数和总收入，为了提升这些指标，站在数据智能的角度，业务人员能够影响的场景有哪些？

如下图，我列举了三个常见场景，在这几个场景下应用了很多数据智能的方法，并且对应的技术场景也不一样，存在递进关系，非常有代表性。

第一个场景：付费用户预测

这是针对一个付费用户的分类用户的预测。

第二个场景：优惠券智能发放

在一个电商场景里，有多种不同品类的优惠券，那么在这种场景下，对应的是用户和少量的物品，因为优惠券的数量通常来说不会太多。

第三个场景：商品智能推荐

在这个技术场景的用户，要跟大量的物品去做匹配，所以存在一个递进的技术场景，那么相应的技术难度和技术解决方案也会存在递进的关系。

（一）付费用户识别——如何识别出具有付费意愿的用户？

决策：对这批用户做精细化运营
评估：提升双 11 当天的付费用户数

在双 11 活动中，淘宝平台如果识别出一批有付费意愿的用户，可以给他发短信，告知双 11 会有一些活动，希望这批用户能够在双 11 浏览商品，做一些内容的筛选和消费，那么如何筛选、识别这一批用户呢？

传统思路：用户分群

业务人员可能刚开始假定需要筛选过去半年有购买行为的付费用户，经过筛选后发现用户数不多；再筛选出过去 30 天有加购行为的用户，视为有付费意愿的潜在用户；但是筛选过程中又有了新的思路，于是找到过去 30 天有搜索行为的用户，通过这些规则筛选出最后的付费用户。

以上是传统思路的典型代表，存在耗费人力，依赖经验，未必准确等问题，那么站在数据智能的角度，我们应该如何识别付费用户？

机器学习：从数据中学习规则

在应用机器学习的具体场景下，有哪几个步骤？会遇到什么问题呢？

1. 构建正负例

正负例：做一个机器学习的模型构建，需要以具体的付费用户识别为例，以使模型了解到，哪一批用户是真正历史上付费的用户，哪一批用户是历史上未付费的用户，这就是正例和负例。技术人员需要设定正负例模型标准，模型才能真正的从数据中挖掘出用户的特征，获取训练数据。

构建正例相对简单：以去年双 11 的付费用户作为模型证明，如果正例的样本不足，可以增加。比如上次优惠活动的付费用户以及过去 30 天的付费用户，和传统的用户分群思路类似，成为我们构建正例的第一步。

如何构建负例？技术人员需要为机器设置好付费用户和未付费用户的特征，机器才能准确识别出付费用户未付费用户。

第 1 种方法：在大量的付费用户中，随机筛选一批作为付费用户。

此方法的弊端是大量用户特征稀疏，模型学习不到关键特征，即使模型的准确率高，但捕获到的特征通常使用价值不高。

例如，特征设定为：用户 30 天内是否登录？这个模型训练出一个结果，模型判断 30天内没有登录的用户肯定是未付费用户，这种结论在实际业务场景中价值较低。

第 2 种方法：利用上次活动期间活跃但是未付费的用户。

在用户全部登录的情况下，还有哪些特征真正影响用户会不会付费？整个模型训练的结果和它带给业务的帮助，比随机选择负例的价值大得多。

2. 特征选择

用户画像 + lookalike：在业务的角度，需要判断哪些因素和企业目标有关。在这个场景下，企业希望收集详尽的用户维度特征，研究在过去 30 天或者 7 天的一段时间内，下单数、搜索、加购、浏览、登录、优惠券领取数等一系列的付费相关行为。

还可以增加更多特征，例如用户的搜索是否成功，搜索之后是否真的看到感兴趣的商品等。

在研究用户特征过程中，遇到的实际问题——特征穿越，假设 11 月 1 日到 11 月 7 日的训练数据，把 11 月 7 日之后的用户行为放到模型特征里。

相当于用未来的信息，作为预测模型的特征进行穿越，这样的特征预测把结果放到输入做预测，准确率很高，这是很多技术同学在机器学习中遇到的问题。

3. 模型训练

模型训练包括模型选择和模型调参两方面，传统的机器学习方法如决策树、逻辑回归等就能解决问题，涉及深度学习的解决方案后续再做分享。

【小提醒】

若特征选择和模型训练出现错误导致准确率看起来很美，根据经验，获得一个实际上有价值或准确率很高的模型很难，如果简单调试模型后就达到一个很高的准确率，需要回过头来思考是不是发生了效果。

在付费用户识别场景下，神策数据提供的工具和解决方案是什么？

lookalike 功能是神策数据的优化，它是神策用户画像中一个把组织训练数据和模型训练整合的功能模块，通过用户特征和 lookalike 两大工作模块得到付费用户的预测结果，最终针对这一批用户做运营，提升转化率。

（二）优惠券智能发放——如何预测用户核销优惠券概率？

以把具体的业务场景转化成机器学习的问题为参考，在这个场景下，转化成预测用户核销优惠券概率问题，即预测用户在收到优惠券的信息后，使用这张优惠券的概率是多少？

决策：给概率高的用户发放对应的优惠券
评估：优惠券使用率／下单数

1. 优惠券特征

优惠券的背景，使用门槛，此前是否受用户的欢迎等。

2. 商家维度特征以及交叉特征

用户和商家的交叉，用户和品类的交叉等。

3. 其他特征：领取时间、维度、特征以及领取渠道等

比如用户使用京东、淘宝或拼多多时，领取优惠券的时间和渠道具有倾向性就会忽视短信，针对于短信信息量大的用户，商家可定期登陆邮箱，通过邮件触达用户效果会更好。

对比只有用户预测的场景，该场景从单纯的用户特征扩展成用户、优惠券、商家、交叉特征等多维度特征，所以需要一个特征平台维护所有特征，特征平台是企业解决人物匹配需要的一个组件。

有的用户通常在特定的时间领取优惠券，还有用户倾向于特定的渠道，于是智能触达必不可少。

在优惠券智能发放场景下，神策数据的解决方案是什么？

首先需要一个特征平台，再结合 lookalike，基本上能够实现千人百面的运营效果，企业把很多品类的优惠券分发给用户，利用智能触达的方式，针对用户选择不同的方式（短信、邮件等）、不同的时间触达用户，再结合这些组件和方法，期望提升优惠券核销率。这就是神策数据产品矩阵里面的另外一款产品——神策智能运营。

【复盘】

在实际模型中，优惠券力度越大，用户感兴趣程度越高，如果按照这个模型的思路，给每一个用户发更大的优惠额度，大额优惠券，用户下单量增大，企业收入增长，但是补贴也随之增高，最终利润反而下降。

深入分析这个场景，企业最终的目标是总收入减去优惠金额后总体利润仍旧提高。神策数据也在帮助很多企业解决这个问题，即如何优化总收入减去优惠金额之后的数值，这个值才是真正对于产品、商家有价值的值。

（三）商品智能推荐——如何利用深度学习建模在线服务系统？

我们浏览淘宝、京东等平台时，都会用到“猜你喜欢”模块，爱好购物的朋友都会说“淘宝的‘猜你喜欢’简直猜太准，给我推荐的都是我想买的。”那么在“猜你喜欢”的模块下，从数据智能角度分析，企业面临的问题和解决方案是什么？

首先，从用户使用产品的角度看，智能推荐与流失用户，付费用户预测，优惠券的发放等不同，后者都是产品或者运营主动发起行为，用户被动接受，而前者是用户主动发起，导致技术上相差很大，需要设计一个高效的推荐在线服务。

其次，传统付费用户场景下，生产一批付费用户名单，针对用户名单做运营活动，整个过程中不需要在线服务；但是推荐场景下，用户发推荐请求过来，在线服务把推荐结果返回给用户，考虑到性能、监控、运维等，在线服务系统必不可少。

最后，与优惠券场景相比，优惠券的品类通常几十种，但是在一个电商场景下，商品至少上万种，一个 lookalike 满足不了需求，而且企业无法在线的环境下，精细化预测每位用户对每个商品感兴趣的程度。

以上的场景差异导致技术人员设计智能推荐的架构大有不同，首先在整个推荐的架构侧，把整个内容匹配的过程拆分成两大阶段——召回和排序

召回阶段：从海量商品里筛选一部分用户感兴趣的商品。比如某用户，在校大学生，如果是男生，推荐数码、食品类商品，召回美妆、家具等不感兴趣的商品；

排序阶段：推荐系统有多种召回方法，在不同周围的元之间，商品没有顺序，后续需要排序，为每一个商品打分，分数表示预测用户对此商品感兴趣的程度，最终根据分数高低将商品返回给用户。

为什么要拆成召回和排序两个阶段？

1. 在线服务要求高

推荐系统的响应延时约为 200 毫秒以内，要在 200 毫秒内为用户准备商品并且算出感兴趣的商品，必须从所有商品里召回一部分，然后再做排序，否则在技术上无法实现。通常用户刷淘宝系统时，基本上没有卡顿，刷一下，一秒以内推荐结果就返回到用户。

2. 海量商品

由于商品数量巨大，需要更复杂的机器学习模型解决推荐问题——深度学习。淘宝、京东都是上千万种商品，企业需要非常细力度得建模用户兴趣以及捕捉如何匹配用户和商品。

没办法人为构建特征，只能用深度学习的方法建模人和商品的匹配（如下图）

神策数据通过实践总结出来的深度学习优势，主要有以下几个方面：

全面表达用户兴趣
融合用户画像特征
建模时序特征
组合复杂特征

这是一个什么场景？举个例子，用户已经购买一部手机，接下来可能需要手机壳、充电宝等，通常购物有这样持续的关系——先买什么再卖什么。

传统机器学习的方法，能学习到商品之间的相关性，但无法建模购买顺序，人们通常先买手机再买充电宝，很少为了配合充电宝，再买手机；

在深度学习中，当用户购买手机之后，系统会为用户推荐充电宝，但是用户购买充电宝后不会再推荐手机，而是推荐手机壳或者无线耳机，传统的机器学习很难捕捉这么精细的持续关系。

如果对比比较成熟的非深度学习方法，深度学习排序模型的效果并不显著，点击率提升 10%，人均浏览次数提升 5%~10% 之间。

根据神策数据运用深度学习的经验来看，提升效果通常在 10%，很少超过 50%，如果大家对这个技术存在一些不切实际的幻想，期待用了深度学习，指标翻倍或者出现指数级的提升，是不现实的；另外一方面使用深度学习，对于技术人员的要求比较高，花费的人力成本，包括时间成本和经济成本都很高。

在面对具体的业务场景时，应不应该使用机器学习技术？需要具体评估投入--产出比决定。

比如淘宝平台，10% 的增长甚至 1% 的增长，都值得招一个团队花几个月甚至一年的时间深挖，只要首页的转化率提升 1%，对于淘宝来说商业价值是巨大的，所以 1% 对于淘宝很值得的；但是如果体量没有那么大的产品，可能 10% 老板都看不上。

神策如何实现千人千面的推荐系统？

1. 特征平台

组织所有的用户，所有商品的特征。

2. 机器学习平台

传统的机器学习方法+深度学习。

3. 在线服务

能够在短短的 200 毫秒以内把推荐的结果推送到用户的 App 里。

【引申】

通常推荐系统的目标是优化点击率，更近一步，就需要兼顾点击率和加购率，甚至更多指标，那企业的最终目标是什么？——提升金融力。

一个最简单的例子，点击率的提升，用户为什么点击？为什么点击率提升金融力却没有提升？

用户喜欢点进系统推荐的页面，但是点进去之后，商品详情页质量很差，或客服响应的速度很慢，用户即使点进页面，但是流失率很高，同样导致最终的 GMV 没有变化，即转化率低，同样无法提升金融力。

多目标推荐模型可以实现多个目标，不仅优化点击率、人均浏览次数、加购率，还优化再次跳转的转化率。

如果只优化点击率，不考虑转化率，就无法建模商品详情页中商品本身的质量，也无法建模店家会不会及时响应买家的任何问题，而多目标推荐模型会综合考虑，让整个业务场景和最终的目标挂钩。

四、神策数据的智能解决方案

神策数据拥有 AI 平台层服务赋能产品矩阵，像 SPS/SF/SR 等产品提供数据智能服务，包括神策用户画像、神策智能运营、神策智能推荐等。

那么神策数据的解决方案有什么特点？它不仅仅关注模型，而是关注从数据到建模,再到用户触达，直至最终效果的分析，效果分析又会反馈到数据输入里面形成一个闭环，形成一个面向业务的全流程，所以神策数据能够帮助企业更好得和业务相贴合，不断的面向业务提升最终的指标。（如下图）

如果对神策数据的产品感兴趣，欢迎点击“阅读原文”，免费体验 demo~希望对你们有帮助！

『不容错过的精彩内容』

▼▼▼

声明：本文章版权为神策数据所有，未经授权不得以任何形式转载，申请内容转载，请添加微信号 wafree 联系策小编

点击“阅读原文”，立即体验 demo

神策数据

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
神策数据胡士文：数据智能驱动业务实践

本文根据神策数据算法工程师胡士文，以《数据智能驱动业务实践》为主题的演讲整理而成，将为您重点介绍以下内容：依据场景解读如何应用数据智能？Case 1：如何通过机器学习，促进付费用户识别...
复制链接

扫一扫