通过女票的淘宝历程,大白话讲解大数据各个方向的分工

浙江女性胸部全国最小! – 马云

大纲:

一、写作背景

二、开始淘宝

2.1 推荐系统(导购员)

2.2 大数据平台开发(店里监控布局)

2.3 实时计算(收银员)

2.4 数据仓库(储物间)

2.5 数据分析(店长)

2.6 离线计算(会计)

2.7 数据挖掘(精算师)

三、总结

一、写作背景

1.总跟女票说我是做大数据的,女票也跟她朋友说我是做大数据的,但一问是啥,我跟我女票解释了半天她都没听懂,她也不知道怎么跟她朋友说。最好的解决方法是换女票,当然这是不存在的,想都不会想也不敢想。于是乎说写篇她看完也能知道大数据的文章给她。

2.我的知识星球里很多伙伴都问了诸如此类的问题(一笔概括,证明女票是多么重要,滑稽脸)

3.下次要是有人问你大数据开发是什么,希望你能把这篇文章分享给他。

二、开始淘宝

2.1 推荐系统(导购员)

一打开女票的手机淘宝页面,就发现推荐栏叫我女票换包。

在这里插入图片描述

推荐商品栏以及热搜和搜索框中的内容,都是根据你定制的。你最近经常搜的物品和浏览的东西都被记录起来,然后被贴上标签。像我女票应该是被贴上「小仙女」、「时尚」、「少女」等标签,下次的女神节,情人节等节日活动的对象就是他们。

这个就是大数据中的推荐系统,专门猜你喜欢,类似导购,提高你的购买率。

2.2 大数据平台开发(店里监控布局)

那么数据是怎么被记录的?被记录的又是什么数据?

在这里插入图片描述

你的昵称,设备IP,浏览的足迹,每个商品停留的时间,浏览的时间段都是后台要采集的数据。

首先我们搭建一个平台,专门去定制收集数据的手段以及采取的策略和存放这些数据的地方,这就是大数据平台的搭建。类似你在你店里布置了监控探头,录音等设备,然后有其他店员通过这些设备帮你观察消费者的言行举止等等行为。

2.3 实时计算(收银员)

当你在浏览商品的时候,你会发现旁边会有实时的推荐,如下图:

在这里插入图片描述

这是因为你在浏览商品的过程中数据不断被收集,然后被投放到上述的推荐系统中。但是那些用户名,商品等信息不一定都是规则的,有可能是数字,有可能是符号。所以我们这边要有一个程序员,专门负责实时的处理这些数据,把这些数据处理成有规则的,并推送到上述的推荐系统里进行训练,实时给用户推荐商品。

这个过程就是大数据的实时计算,它具有时效性,就是不能停,立刻马上做出响应的。把它比喻成收银员就是为了突出实时,别人要结账你得立即做出响应。

2.4 数据仓库(储物间)

数据仓库,顾名思义,存储数据的仓库。在我们一些工厂或者企业的仓库里,我们通常都会按循序、分类放好我们的物品,要制定规则,哪些能放,哪些不能放,哪些需要处理之后才能放。比如说你要放一个柜子,不能直接放放,但你如果把它拆成木板就可以放,等要用的时候通过这些木板去组装就行。

因为数据仓库的存储要遵守数据仓库管理员制定的规则,得将数据按照规格处理好才能进行存放,所以数据仓库一般用于存放不着急用而且不经常更换的东西,这样比较省事,我们什么时候想用再去取就行。

像我们前面说的实时计算,就没必要把那些数据放到数据仓库,我们需要的是一条流水线的数据管道,实时去推送。但后续的离线计算就截然相反,它需要数据仓库的支撑,便于更好地去计算数据。

2.5 数据分析(店长)

当你从淘宝给你推荐的商品挑选出你喜欢的之后,点击直接购买并付款。淘宝系统会生成一条你订单的数据到数据库里面,上面会有你的收件地址、联系方式、商品信息、数量等。

而这些数据有什么用呢?你可能会想说,留底当凭证啊。对的,不过不止这个作用。

举个例子:马云开会说:我要看一下这十年的内衣销售明细,各个地区的销售情况。这时候有个部门就要去整理出这些报表了,那就是数据分析部门,他们要从海量的数据中去分析这些指标,并整理成报表给马老板看。

马老板看了这些数据之后,得出一个结论:「浙江女性胸部全国最小」。然后呢?肯定是以后往浙江多进一些小码的内衣,以增加销售量,然后可能再顺带卖点木瓜什么的。

这就是数据分析带来的好处,为我们公司的高层提供决策上的支持。

2.6 离线计算(会计)

不对啊,十年的数据量,能说查就查吗?数据量得多大啊!没错,不可能说要什么数据立马就能查出来的。最理想的方案就是:当天结束就计算当天的指标,把销售额,地址什么的统计好,然后每星期再统计一下,每个月再统计一下,以此类推。那算十年不就分分钟的事?

对的,那这些事情谁来做呢?当然是我们离线计算工程师。离线计算顾名思义,实时计算的对立方,我们做的是幕后工作。可以将实时计算工程师想象为收银员,每个顾客买单时都得结账并打印发票什么的,不能拖延。离线计算则是会计,每天下班之后看着账单点数,看看今天哪些东西各卖多少。可以慢悠悠地算一个晚上,数据对就行,没人在乎你算了多久。

2.7 数据挖掘(精算师)

那这些处理好的数据不能光存着啊,得挖掘出它的价值。没错,根据这些订单数据,我们能推测出未来商品的一个销售走势,哪个地区需要投放哪些商品,这就是数据挖掘。数据挖掘相当于我们企业的精算师顾问,他会从你已有的数据去分析你之后的走势,给你提供一些有价值可供参考的建议。

我们要给数据挖掘系统投放有价值的数据,它类似我们人脑,输入的数据越有价值和参考性,预测的结果越准,否则只会误导。

三、总结

好了,通过以上步骤,淘宝更懂我女朋友了,它会推送更多符合我女票的胃口的商品,然后下单之后的数据会帮助那些商家投放更多种类的商品到该地区,选择更多了,我女朋友也更喜欢在淘宝购物了。

<think>好的,我需要为用户提供一个关于岭回归的简单易懂的解释或教程。首先,我应该回顾岭回归的基本概念,确保自己理解正确。根据引用[1]和[2],岭回归是对普通线性回归的改进,通过引入L2正则化项来解决多重共线性和过拟合的问题。用户可能不太熟悉这些术语,所以我需要用简单的语言解释。 接下来,我需要比较普通线性回归和岭回归的区别。引用[1]提到普通线性回归使用最小二乘法,而岭回归加入了惩罚系数,导致损失部分无偏性但提高了稳定性。这部分需要解释为什么无偏性被牺牲,以及正则化如何起作用。 然后,数学公式是必要的,但用户要求简单易懂,所以不能太复杂。引用[2]中的目标函数应该用LaTeX格式展示,比如$J(\theta) = \text{MSE} + \alpha \|\theta\|_2^2$,并解释每个部分的含义。同时,引用[1]提到的范数部分,五·范数可能是个笔误,应该是L2范数,需要确认并正确表述。 用户可能想知道岭回归的应用场景和优势。引用[3]提到岭回归提高泛化能力,适用于特征多过样本或存在共线性的情况。这部分需要举例说明,比如在数据维度高时的处理效果。 另外,代码示例可能有帮助。引用[4]中的Python代码片段展示了数据分割,但需要展示如何实际应用岭回归,比如使用sklearn的Ridge类。确保代码简洁,并解释关键参数如alpha的作用。 最后,生成相关问题需要考虑用户可能的后续疑问,比如如何选择alpha值,与Lasso回归的区别,评估模型的方法等。这些问题需要自然衔接,帮助用户深入学习。 在组织内容时,要保持结构清晰,分点讲解,避免技术术语过多,必要时用比喻或类比。同时,确保所有数学公式符合格式要求,行内公式用$...$,独立公式用$$...$$,并正确引用参考资料。检查LaTeX语法是否正确,避免错误。 总结步骤: 1. 定义岭回归及其目的 2. 对比普通线性回归的问题 3. 解释正则化的作用和L2惩罚项 4. 展示目标函数公式 5. 说明参数alpha的作用 6. 提供Python代码示例 7. 应用场景和优势 8. 注意事项 9. 相关问题 需要确保每个部分简洁明了,符合用户对入门教程的需求。</think>### 岭回归简单讲解 #### 一、基本定义 岭回归(Ridge Regression)是**改良版的线性回归**,核心是**通过添加正则化项解决普通线性回归的缺陷**。当数据存在多重共线性(特征高度相关)或特征数多于样本数时,普通线性回归可能失效,而岭回归能稳定求解[^1][^2]。 #### 二、与普通线性回归的对比 1. **普通线性回归** 目标是最小化误差平方和: $$J(\theta) = \sum_{i=1}^m (y_i - \theta^T x_i)^2$$ 但若特征矩阵$X^TX$不可逆(如特征共线性或样本不足),无法求解析解[^1]。 2. **岭回归改进** 添加L2正则化项(惩罚系数$\alpha$控制强度): $$J(\theta) = \sum_{i=1}^m (y_i - \theta^T x_i)^2 + \alpha \sum_{j=1}^n \theta_j^2$$ 这一改动使$X^TX + \alpha I$始终可逆,确保解唯一[^2]。 #### 三、核心作用 - **解决多重共线性**:正则化压缩系数,减少相关性干扰 - **防止过拟合**:惩罚大系数,限制模型复杂度 - **处理高维数据**:特征数多于样本数时仍可用[^3] #### 四、参数说明 - **$\alpha$(正则化强度)** - $\alpha=0$时退化为普通线性回归 - $\alpha$越大,系数压缩越明显(但可能欠拟合) #### 五、Python代码示例 ```python from sklearn.linear_model import Ridge from sklearn.model_selection import train_test_split # 分割数据(引用示例代码[^4]) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3) # 训练模型(alpha=1.0为默认值) ridge = Ridge(alpha=1.0) ridge.fit(X_train, y_train) # 预测与评估 score = ridge.score(X_test, y_test) ``` #### 六、应用场景 1. 医疗数据分析(基因表达等高维数据) 2. 金融风控(消除共线性特征影响) 3. 图像处理(像素特征相关性高) #### 七、注意事项 - 需标准化数据(正则化对尺度敏感) - 通过交叉验证选择最佳$\alpha$值 - 若需要特征选择,可结合Lasso回归(L1正则化) ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值