通过女票的淘宝历程，大白话讲解大数据各个方向的分工

最新推荐文章于 2025-06-13 13:20:11 发布

大数据肌肉猿

最新推荐文章于 2025-06-13 13:20:11 发布

阅读量888

点赞数 4

分类专栏：漫画故事讲解大数据大数据干货文章标签：大数据数据挖掘数据仓库数据分析 java

本文链接：https://blog.csdn.net/BigData98/article/details/105196440

版权

大数据干货同时被 2 个专栏收录

4 篇文章

订阅专栏

漫画故事讲解大数据

2 篇文章

订阅专栏

浙江女性胸部全国最小！ – 马云

大纲：

一、写作背景

二、开始淘宝

2.1 推荐系统（导购员）

2.2 大数据平台开发（店里监控布局）

2.3 实时计算（收银员）

2.4 数据仓库（储物间）

2.5 数据分析（店长）

2.6 离线计算（会计）

2.7 数据挖掘（精算师）

三、总结

一、写作背景

1.总跟女票说我是做大数据的，女票也跟她朋友说我是做大数据的，但一问是啥，我跟我女票解释了半天她都没听懂，她也不知道怎么跟她朋友说。最好的解决方法是换女票，当然这是不存在的，想都不会想也不敢想。于是乎说写篇她看完也能知道大数据的文章给她。

2.我的知识星球里很多伙伴都问了诸如此类的问题（一笔概括，证明女票是多么重要，滑稽脸）

3.下次要是有人问你大数据开发是什么，希望你能把这篇文章分享给他。

二、开始淘宝

2.1 推荐系统（导购员）

一打开女票的手机淘宝页面，就发现推荐栏叫我女票换包。

在这里插入图片描述

推荐商品栏以及热搜和搜索框中的内容，都是根据你定制的。你最近经常搜的物品和浏览的东西都被记录起来，然后被贴上标签。像我女票应该是被贴上「小仙女」、「时尚」、「少女」等标签，下次的女神节，情人节等节日活动的对象就是他们。

这个就是大数据中的推荐系统，专门猜你喜欢，类似导购，提高你的购买率。

2.2 大数据平台开发（店里监控布局）

那么数据是怎么被记录的？被记录的又是什么数据？

在这里插入图片描述

你的昵称，设备IP，浏览的足迹，每个商品停留的时间，浏览的时间段都是后台要采集的数据。

首先我们搭建一个平台，专门去定制收集数据的手段以及采取的策略和存放这些数据的地方，这就是大数据平台的搭建。类似你在你店里布置了监控探头，录音等设备，然后有其他店员通过这些设备帮你观察消费者的言行举止等等行为。

2.3 实时计算（收银员）

当你在浏览商品的时候，你会发现旁边会有实时的推荐，如下图：

在这里插入图片描述

这是因为你在浏览商品的过程中数据不断被收集，然后被投放到上述的推荐系统中。但是那些用户名，商品等信息不一定都是规则的，有可能是数字，有可能是符号。所以我们这边要有一个程序员，专门负责实时的处理这些数据，把这些数据处理成有规则的，并推送到上述的推荐系统里进行训练，实时给用户推荐商品。

这个过程就是大数据的实时计算，它具有时效性，就是不能停，立刻马上做出响应的。把它比喻成收银员就是为了突出实时，别人要结账你得立即做出响应。

2.4 数据仓库（储物间）

数据仓库，顾名思义，存储数据的仓库。在我们一些工厂或者企业的仓库里，我们通常都会按循序、分类放好我们的物品，要制定规则，哪些能放，哪些不能放，哪些需要处理之后才能放。比如说你要放一个柜子，不能直接放放，但你如果把它拆成木板就可以放，等要用的时候通过这些木板去组装就行。

因为数据仓库的存储要遵守数据仓库管理员制定的规则，得将数据按照规格处理好才能进行存放，所以数据仓库一般用于存放不着急用而且不经常更换的东西，这样比较省事，我们什么时候想用再去取就行。

像我们前面说的实时计算，就没必要把那些数据放到数据仓库，我们需要的是一条流水线的数据管道，实时去推送。但后续的离线计算就截然相反，它需要数据仓库的支撑，便于更好地去计算数据。

2.5 数据分析（店长）

当你从淘宝给你推荐的商品挑选出你喜欢的之后，点击直接购买并付款。淘宝系统会生成一条你订单的数据到数据库里面，上面会有你的收件地址、联系方式、商品信息、数量等。

而这些数据有什么用呢？你可能会想说，留底当凭证啊。对的，不过不止这个作用。

举个例子：马云开会说：我要看一下这十年的内衣销售明细，各个地区的销售情况。这时候有个部门就要去整理出这些报表了，那就是数据分析部门，他们要从海量的数据中去分析这些指标，并整理成报表给马老板看。

马老板看了这些数据之后，得出一个结论：「浙江女性胸部全国最小」。然后呢？肯定是以后往浙江多进一些小码的内衣，以增加销售量，然后可能再顺带卖点木瓜什么的。

这就是数据分析带来的好处，为我们公司的高层提供决策上的支持。

2.6 离线计算（会计）

不对啊，十年的数据量，能说查就查吗？数据量得多大啊！没错，不可能说要什么数据立马就能查出来的。最理想的方案就是：当天结束就计算当天的指标，把销售额，地址什么的统计好，然后每星期再统计一下，每个月再统计一下，以此类推。那算十年不就分分钟的事？

对的，那这些事情谁来做呢？当然是我们离线计算工程师。离线计算顾名思义，实时计算的对立方，我们做的是幕后工作。可以将实时计算工程师想象为收银员，每个顾客买单时都得结账并打印发票什么的，不能拖延。离线计算则是会计，每天下班之后看着账单点数，看看今天哪些东西各卖多少。可以慢悠悠地算一个晚上，数据对就行，没人在乎你算了多久。

2.7 数据挖掘（精算师）

那这些处理好的数据不能光存着啊，得挖掘出它的价值。没错，根据这些订单数据，我们能推测出未来商品的一个销售走势，哪个地区需要投放哪些商品，这就是数据挖掘。数据挖掘相当于我们企业的精算师顾问，他会从你已有的数据去分析你之后的走势，给你提供一些有价值可供参考的建议。

我们要给数据挖掘系统投放有价值的数据，它类似我们人脑，输入的数据越有价值和参考性，预测的结果越准，否则只会误导。

三、总结

好了，通过以上步骤，淘宝更懂我女朋友了，它会推送更多符合我女票的胃口的商品，然后下单之后的数据会帮助那些商家投放更多种类的商品到该地区，选择更多了，我女朋友也更喜欢在淘宝购物了。