1.大数据对思维方式的重要影响
(1)全面而非抽样
过去,由于数据存储和处理能力的限制,在科学分析中,通常采用抽样的方法,即从全集数据中抽取一
部分样本数据,通过对样本数据的分析来推断全集数据的总体特征。通常,样本数据规模要比全集数据
小很多,因此,可以在可控的代价内实现数据分析的目的。现在,我们已经迎来大数据时代,大数据技
术的核心就是海量数据的存储和处理,分布式文件系统和分布式数据库技术并行处理能力。因此,有了
大数据技术的支持,科学分析完全可以直接针对全集数据而不是抽样数据,并且可以在短时间内迅速得
到分析结果,速度之快,超乎我们的想象。就像前面我们已经提到过的,谷歌公司的Dremel可以在2-3s
内完成PB级别数据的查询。
(2)效率而非精确
过去,我们在科学分析中采用抽样分析方法,就必须追求方法的精确性,因此抽样分析只是针对部分样
本的分析,其分析结果被应用到全集数据以后,误差会被放大,这就意味着,抽样分析的微小误差被放
大到全集数据以后,可能会变成一个很大的误差,因此,为了保证误差被放大到全集数据时仍然处于可
以接受的范围,就必要确保抽样分析结果的精确性。正是由于这个原因,传统的 数据分析方法往往更加
注重算法的精确性,其次才是提高算法的效率。现在,大数据时代采用全样分析而不是抽样分析,全样
分析结果就不存在误差被放大的问题。因此,追求高精确性已经不是其首要目标;相反,大数据时代具
有“秒级响应”的特征,要求在几秒内就迅速给出针对海量数据的实时分析结果,否则就会丧失数据的
价值,因此,数据分析的效率成为关注的核心。
(3)相关而非因果
过去,数据分析的目的,一方面是解析事物背后的发展机理,比如,一个大型超市在某个地方的连锁店
在某个时期内净利润下降很多,这就需要IT部门对相关销售数据进行详细分析找出发生问题的原因;另
一方面是用于预测未来可能发生的事件,比如,通过实时分析微博数据,当发现人们对雾霾的讨论明显
增加时,就可以建议销售部门增加口罩的进货量,因为人们关注雾霾的一个直接结果是,大家会想到购
买一个口罩来保护自己的身体健康。不管是哪个目的,其实都反映了一种“因果关系”。但是,在大数
据时代,因果关系不再那么重要,人们转而追求“相关性”而非“因果性”物品的其他客户还购买了汽
车坐垫,也就是说,淘宝网只会告诉你“购买汽车防盗锁”和“购买汽车坐垫”之间存在相关性,但是
并不会告诉你为什么其他客户购买了汽车防盗锁以后还会购买汽车坐垫。
2.大数据、云计算、物联网之间的区别与联系
区别:大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;云
计算本质上旨在整合和优化各种IT资源,并通过网络以服务的方式廉价的提供给顾客;物联网的发展目
标是实现物物相连,应用创新是物联网发展的核心。
联系:从整体上看,大数据、云计算和物联网这三者是相辅相成的。大数据根植于云计算,大数据分析
的很多技术都来自于云计算,云计算的分布式数据存储和管理系统(包括分布式系统和分布式数据库系
统)提供了海量数据的存储和管理能力,分布式并行处理框架MapReduce提供了海量数据分析能力,,没
有云计算技术作为支撑,大数据分析就无从谈起。反之,大数据为云计算提供了“用武之地”,没有大
数据这个“练兵场”,云计算技术再先进,也不能发挥它的应用价值。物联网的传感器源源不断产生的
大量数据,构成了大数据的重要数据来源,没有物联网的飞速发展,就不会带来数据产生方式的变革,
即由人工产生阶段转向自动产生阶段,大数据时代也不会这么快就到来。同时,物联网需要借助于云计
算和大数据技术,实现物联网大数据的存储、分析和处理。可以说,云计算、大数据和物联网三者已经
彼此渗透、相互融合,在很多应用场合都可以同时看到三者的身影。在未来,三者会继续促进、相互影
响,更好地服务于社会生产和生活的各个领域。
3.简述对大数据应用与发展的看法以及在大数据浪潮中想扮演的角色
看法:大数据在很多领域中都有应用到,比如说城市管理、金融、汽车、零售、体育、娱乐、安全等,从中我们可以深刻地感受到大数据对我们日常生活的影响和重要价值。我们已经身处大数据时代,大数据已经触及社会每个角落,并为我们带来各种欣喜的变化。拥抱大数据,利用好大数据,是每个政府、机构、企业和个人的必然选择。我们每个人每天都在不断的生成各种数据,成为大数据海洋的点点滴滴,我们贡献数据的同时,也从数据中获取价值。
想扮演的角色:平凡人。