为什么要做骑象人–解锁Hadoop高薪之路
1.数据也疯狂
数据和每个人甚至是每个时代都息息相关,即使你穿越到人类才刚刚学会使用工具的石器时代,假如你就是那个手握石斧,躲在草丛之后窥视一群肥羊的原始人,你都要在心理盘算着这样一堆数据,我已经2天没吃饭了,以现在的体力,我的奔跑速度只能抓到羊群中那只最小的羊,这只羊大约有30斤,我家里一家老小共5人,追到这只肥羊省着点吃,可以吃上3天…假如你还是一个喜欢记录的原始人,篱笆上的绳结记录着你捕到的肥羊数,家里的墙壁上还画着一条条线,记录着在没有羊吃的日子里,你欠邻居的肥羊数…
你说,你不喜欢数羊,一数羊,你就犯困,好吧,那让我们穿越回来好了。现在是7:30分,你已经开始挤地铁去公司了,今天是星期一,上班的人很多,刚刚过去的那趟地铁,你没有挤上去,在距离门口2米的时候,地铁关门的声音就响起来了,你拿出手机拍了几张挤地铁的照片发到朋友圈抱怨一下今天的人真多。下一趟地铁3分钟后到达,这时候,你瞟了一眼你的运动手环,你现在已经走了6851步,消耗了252卡路里,相当于1个汉堡热量,地铁进站了,你挤上了地铁,随手拍了一个长度15秒的视频,发到抖音上,记录一下地铁关门的一瞬间,那些即将上班迟到的人生无可恋的表情,在配上一段幸灾乐祸的音乐。忽然想起了,今天是618,你打开京东,你心仪已久的那款运动相机开始降价了,赶紧加入购物车,你发现购物车下方,又为你推荐了运动相机支架、充电电池,运动相机收纳包,甚至你喜欢吃的辣条也在里面…
这些就是你正在产生的数据,朋友圈的照片,抖音上的小视频,运动手环记录的步数,电商网站上的购买商品,搜索记录等等。而这仅仅是你一个人,在上班路上所产生的数据。很多终端都在贡献数据,包括交通路口摄像头的监控数据,机场安检时,你刷脸的数据等等,根据 Google 的报告,从人类文明产生以来到 2003 年为止,人类产生了 5 艾字节的数据,而现在人类在互联网上平均每 2 天就产生大约 5 艾字节的数据。那么5艾字节有多大呢,大约相当于14亿张DVD光盘的存储量(每张DVD光盘大约4G),如果每张光盘的厚道按1.5毫米计算,那么14亿张DVD叠起来厚度有2100公里,这大约是从深圳自驾到北京的距离。
而这些数据很大一部分都是传统工具无法处理的非结构化数据。
从上图可以看出,人类产生的数据包括结构化数据和非结构化数据,从2012年以来,非结构化数据呈现出爆炸式增长,而到2020年数据总量将达到50000艾字节,而其中非结构化数据将达到10000艾字节。
如此疯狂增长的数据也给我们带来了无限商机。
2.指数级增长的大数据市场
现在的企业已经慢慢的意识到大数据能够给它们带来更多的商机。正如前面你在京东上购买运动相机的例子中所提到的,当你把运动相机添加到购物车的时候,京东的大数据平台会根据推荐算法,为你推荐运动相机支架,甚至根据你的搜索记录,购买记录顺便向你推荐了一包辣条,通过一台运动相机的销售,带来了相机支架甚至辣条的销售机会。你在抖音上查看小视频的时候,也会带来某款网红商品的销售机会。
而在印度,数据分析领域已经达到8倍的增长。根据NASSCOM(印度软件和服务业企业行业协会)的数据,到2025年将从20亿美元增长到160亿美元。大数据市场来势凶猛。
随着大数据市场的增长,对大数据技术的需求也