总目录:https://blog.csdn.net/qq_41106844/article/details/105553392
Hadoop - 子目录:https://blog.csdn.net/qq_41106844/article/details/105553369
一个例子
我们有一个文件,里面存放了全亚洲所有人的身高,以厘米为单位取整:
157
213
169
134
...
178
...
190
那么我们该怎么算平均身高呢?
-
超算平台 Σ(⊙▽⊙"a
超算平台相对于其他方法的确可以最简单最便捷解决这个问题,但是这种庞然大物不是一个小企业能够养得起的。 -
切分成小文件一个一个遍历 ε=(´ο`*)))
切分成一个小文件一个小文件的也是一种方式,但是需要投入巨大的人力,物力,财力,而且算出来之后的误差也是巨大(毕竟每时每刻都有人在生长) -
集群
集群也相当于第二种方法,不过他将管理者尽可能的也转换成计算机,让计算机来管理计算机计算,用魔法来打败魔法。
这样便可以最大限度节省成本。
为什么要有这个例子
当然也会有人问,为什么要算这个,这不是闲的吗?
当然如果只有单单的一个身高,他的价值很低,但是如果我们还能搜集到,地区,性别,年龄等等数据。
我们就可以推算出,哪些地区身高在增加,哪些人群身高在增加....
这样我们就能发掘出巨大的价值。
那我们举几个例子:
千人千面的网购,视频网站
如何摆放商品让客户在商场逗留最久,消费最多
阿迪达斯的“黄金罗盘”
这几个是大数据挖掘数据后的杰出应用。
-
千人千面的网购,视频网站想方设法将用户尽可能长时间的留在自己的网站内。
我们拿“小破站”来说,小破站在2019年已经将用户驻留时间提升到了平均74分钟,这样的驻留时间需要的计算量是极为恐怖的。 -
同样有些购物商场通过统计售出的货物数量,将售出量大的藏在商场中央偏内的部分,在前半部分放着售出量一般的商品种类,间接提高了总销售额。
-
而黄金罗盘更是阿迪达斯提高销售额的法宝,物求所需,将最适合的商品在最适合的时间以最适合的价钱卖给最适合的人。
这几个例子不是无缘无故就有的,背后是大量的数据收集,存储,挖掘之后变现的价值。
在21世纪,没有一夜暴富的传说,只有谁能在有限的数据内挖掘出无限的价值。