大数据之简介
大数据时代处理数据理念上的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果;接着,从万事万物数据化和数据交叉复用的巨大价值两个方面,讲述驱动大数据战车在材质和智力方面向前滚动的最根本动力;最后,作者冷静描绘了大数据帝国前夜的脆弱和不安,包括产业生态环境、数据安全隐私、信息公正公开等问题。
Date 1:
大数据开启一起重大的时代转型。
本书三个典型的实例,讲述大数据对人们实际生活的转变。
1、变革公共卫生。谷歌通过人们多年以来在网上的搜索记录,来预测对于流感的发生。
2、变革商业。奥伦创立预测系统,从旅游网站上爬取价格样本,利用其它航班的数据从而预测未来机票价格走势。
3、变革思维。处理的信息量过大,从而改进处理数据的工具,创造新的处理技术的诞生,例如谷歌的MapReduce和开源Hadoop平台(最开始源于雅虎)。
真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据。
当我们改变规模时,事物的状态有时也会发生改变。大数据也一样,量变导致质变。
大数据的核心就是预测。他通常被视为人工智能的一部分,或者更确切的说,被视为一种机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反,它是把数学算法运用到海量的数据上来预测事件发生的可能性。随着系统接受的数据越来越多,它们可以聪明到自动搜索最好的信号和模式,并自己改善自己。(反馈学习机制,利用自己产生的数据判断自身算法和参数选择的有效性,并实时进行调整,持续改进自身的表现)
Date 2:
分析信息时的三个转变:
1、在大数据时代,我们可以分析更多的数据,有时甚至可以处理和某个特别现象相关的所有数据,而不依赖于随机采样。
2、研究数据之多,我们不再热衷于追求精确度。
3、不再热衷于寻求因果关系,转于寻求其相关关系。
将生活中的一切数据化,从生活中寻找数据,通过量化的方法进行转化。人们对于数据的看法由因果关系向相关关系转化,挖掘潜在价值。
大数据的负面影响,新的规章制度保卫个人权利。
Date 3:
让数据“发声”。
1.不是随机样本,而是全体数据
小数据时代的随机采样,用最少的数据获得最多的信息。
采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。
随机采样的调查结果缺乏延展性,即调查得出的数据不可以重新分析以实现计划之外的目的。
只研究样本而不是整体,有利有弊:能更快更容易地发现问题,但不能回答事先未考虑到的问题。
我们实行全数据模式,样本

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



