楔子
在这个快速变化的互联网生态中,我们不断奔跑又在奔跑中迷茫。我们不断用数据“量化”自己,却又发现到处充满不确定性。“一切用数据说话”是这个圈子里铁一般的规则。
数据分析文化课:统计软件鄙视链
所有人都不得不承认一件事情,那就是数据分析师/数据科学家/大数据工程师/数据挖掘工程师,火到不行。他们的名字基本上符合如下正则表达式:
.*数据.*
所有人都急赤白脸地想要加入数据分析行业,于是乎充斥着知乎这个装逼第一大平台的一大部分问题就是数据分析如何入门。
其实要加入一个行业最简单的方法就是熟悉一个行业的文化。而这种文化无非就是一种鄙视文化,正所谓文人相轻。不论金庸笔下的五岳剑派如何相互吹捧,心里谁也看不上谁。
数据分析行业最常见的一种鄙视文化就是统计软件鄙视链。这与程序员的开发工具鄙视链是一样的。说是鄙视链,其实也不完全是一条链,更像是一个网,这个网里的人互相鄙视,乐此不疲。
这个复杂的鄙视网如下:
- 专业的鄙视不入流的,SAS、SPSS (╬ ̄皿 ̄)凸 Excel(是的,虽然一黑黑一片,但是在很多人确实看不上Excel)
- 专业的互相鄙视,SPSS (︶︿︶)=凸 SAS,SAS (︶︿︶)=凸 SPSS
- 外挂多的鄙视外挂少的,Matlab、Python、R (¬_¬) SAS、SPSS
- 写脚本的鄙视图形操作的,Matlab、Python、R、SAS (¬д¬。) SPSS、Excel
- 图形界面鄙视写脚本的,SPSS (¬д¬。) Matlab、Python、R、SAS
- 新人鄙视旧人,Spark (︶︿︶)=凸 Hadoop (︶︿︶)=凸 Matlab、Python、R (︶︿︶)=凸 SAS、SPSS
- 分布式鄙视非分布式,Spark、Hadoop ( ╯-_-)╯┴—┴ Python、R、SAS、SPSS
- 开源软件鄙视商业软件,Python、R (︶︿︶)=凸 Matlab、SAS、SPSS
- 商业软件鄙视开源软件,Matlab、SAS、SPSS (︶︿︶)=凸 Python、R
每一个从业人员脸上的表情一般都是这样的:
因此,想入行,请先牢记鄙视链,这是必考题啊。
贵圈真乱:所有人都在跑路
时代的变更总是快到你还没来得及反应一个时代就过去了。如果大家还记得的话,2012-2013年堪称大数据时代,所有人都想转行做“大数据”,只要说话不带“大数据”就是封建落后;2014年堪称创业时代,所有人都想去创业,于是摆摊卖茶叶蛋也成了创业;2015年P2P金融遍地开花,直播开始火遍祖国的山山水水,很自然朋友圈多了一票挤胸秀豪车的;2016年谷歌养的那条狗硬生生把李世石咬伤了,顺势开启了人工智能时代,这会儿要是有人创业融资不说人工智能、机器学习、深度学习、大数据的不是脑残就是真牛逼到不行。
不是我跟不上时代,是这个社会变化太快。上一秒还在宣称大数据拯救人类,下一秒就变成人工智能会不会毁灭地球。
大数据火的时候所有人都想转行做大数据;人工智能火了,连网络女主播都开始直播敲调教DNN。时代不一样了,这几年所有人都在拼了命往这些风口上撞。两年前碰见谁都说要转大数据,一年前基本上都看好P2P,而现在基本上都要去做人工智能。
面对这样那样的跑路大军,看着一大票跑路成功的人,是不是顿时内心痒到不行。仿佛此刻不加入人工智能就会错过下一波发家致富的机会。
跑路计划总是与时俱进的,过去Java火的时候有21天入门到精通;JavaScript火的时候有21天入门到精通;深度学习火的时候,请自行上亚马逊搜书。
这是个什么时代早已分不清。大数据时代似乎还没过去,人工智能时代方兴未艾,创业浪潮依旧此起彼伏。所有人都忙着跑路,又不知道跑到哪个地方。作为数据分析业内的愣头青,看着一个个卷积充斥各个论坛、博客,再难看到优雅地做特征工程的帖子了。曾经在论坛上面是百家争鸣,现在是一家独大。一个时代的兴起必定意味着另一个时代的衰落,有时候回头看看,贵圈真乱。