数据工程师VS数据分析师VS数据科学家

参考链接:
(1)什么是数据工程师,数据工程师主要是做什么的?
https://blog.csdn.net/zhinengxuexi/article/details/89072028
(2)如何快速成为数据分析师?
https://www.zhihu.com/question/29265587
(3)如何成为数据科学家?
https://www.zhihu.com/question/21592677/answer/786529944

大数据的三大理念解析

作者:大数据架构师 来源:简书
链接:https://www.jianshu.com/p/47b67bac2645

维克托·迈尔·舍恩伯格同学曾在他的作品《大数据时代》中总结了相对于传统的思维模式,大数据时代需要做出的三个转变,也可以说是大数据思维模式的三个理念。这里也不准备标新立异了,还是沿着这个思路。不过,对于这种观点,我们还是需要批判的看待,既不能像网上某些人的评论那样将其批判的一无是处,也不能不假思索的全盘接受。用马克思主义哲学的说法,只有使用去粗取精、去伪存真的方式,取其精华,弃其糟粕,才能真正了解其精髓,从而实现继承和发扬。

一、大数据的理念之:用全量代替样本

1841年埃德加·爱伦·坡发表了文学史上的第一部侦探小说《莫格街谋杀案》,尽管这部小说的解答有些欠抽,但不可否认,它开创了侦探小说的一种模式——“密室”,而这种模式被后来人所追随,以至于似乎没有写过这种类型小说的都不算是侦探小说作家。所谓的“密室”,就是在一个封闭的空间内犯下的凶案,终极目标就是解答出凶手的犯案方式以及如何从密室中逃脱。在一代又一代的侦探小说家的努力下,密室的难度越来越大,从正常人无法进入到所有人类都无法进入,直至正常情况下所有生物都无法进入。然而即便这样,如果严格来说的话,绝对的密室是不存在的,它肯定会有空隙,就算看起来密不透风也从微观的角度找到某些空隙。既然不可能达到绝对的封闭,只能使用相对的概念,对于正常人无法进入的空间都属于密室,否则整个侦探小说界就少了一个很重要的组成部分。

刚接触化学课的时候,接触到了纯净物和混合物的概念,与此同时也提到了,绝对的纯净物是不存在的,即使是再精确的提纯。于是,对于一种物质,只要没有提到存在杂质,默认按照纯净物来看待,否则就不仅仅是几道考试题的问题了,可能整个化学学科的研究都没法开展下去了。例如两种物质发生反应,如果按照实际情况都当作混合物看待,不断的纠结于各种杂质的问题,那就偏离了真正的研究方向。

举了上面两个貌似不相干的例子,想表达的观点就是,和多、少这类的相对概念一样,实际上全也是一个相对的概念,绝对的全也是不存在的。之所以这么说,主要有两方面的原因:

首先,当数据量超过一个范围之后,取得全部信息会很复杂,以至于可能根本是无法完成的任务。如果要获取一个学校所有学生的某个信息,这个很容易,只需要将全校的学生聚集起来一起获取,或者以班级为单位单独获取之后再进行汇总,因为一个学校不管有多大,学生人数都不会太大。而如果要获取全市所有人的某个信息呢,这似乎就是不可能的了:如果在大街上随机询问,对于那些不出门的宅男、宅女们的信息就没法获取;如果挨家挨户进行询问,对于那种经常不在家的就不太容易能遇到,而且那种无家可归的流浪汉的信息也没有办法获取;如果通过电话询问,也肯定有因为某种原因无非接电话的人,或者看到是陌生号码就是不接的;也许互联网可以解决这种问题,但肯定有那种一心只跳广场舞、对网络世界一窍不通的大爷、大妈们,就算是网络一族,也有可能因为不关注或者不感兴趣而对此完全无视。就算可以获取全市所有人的信息,那推广到全省、全国呢。要知道,所谓的所有人,包括那种没有户籍的“黑户”,以及那种隐姓埋名

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值