《大数据时代》读书笔记(一)

作者:维克托 迈尔——舍恩伯格
序言
  • 世界的本质就是数据,大数据将开启一次重大的时代转型;
  • 大数据发展的核心动力来源于人类测量、记录和分析世界的渴望
  • 从因果关系到相关关系的思维变革才是大数据的关键,建立在相关关系分析法基础上的预测才是大数据的核心
推荐序一 拥抱 拥抱“大数据时代 大数据时代”
  • 发掘数据价值、征服数据海洋的“动力”就是云计算。
  • 以云计算为基础的信息存储、分享和挖掘手段,可以便宜、有效地将这些大量、高速、多变化的终端数据存储下,并随时进行分析与计算。
  • 数据正成为巨大的经济资产,成为新世纪的矿产与石油,将带来全新的创业方向、商业模式和投资机会。
  • “大数据”发展的障碍,在于数据的“流动性”和“可获取性”。
推荐序二 实实在在大数据
  • 维克托指出,大数据时代的来临使人类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获取的知识,得到过去无法企及的商机。
译者序 译者序
在路上 在路上·晃晃悠悠
  • 我相信作者在书中的一个重要观点,就是大数据时代,要允许一点点的错误和不完美,因为效率可能更加重要!
  • 作者抛出了大数据时代处理数据理念上的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果;接着,从万事万物数据化和数据交叉复用的巨大价值两个方面,讲述驱动大数据战车在材质和智力方面向前滚动的最根本动力;最后,作者冷静描绘了大数据帝国前夜的脆弱和不安,包括产业生态环境、数据安全隐私、信息公正公开等问题。
  • 这本书好在三个地方:
    一是观点掷地有声,绝非主流媒体上若干讨论的简单汇总和平均,更不是一个宏大概念面
    前暧昧的叫好声。读者可能对其中一些观点并不认同,但是读完之后不可能一个都记不住。
    二是观念高屋建瓴,作者试图从很多实例和经验,包括历史事件中萃取出普适性的观念,
    而不仅仅是适用于几个特定情况的案例分析。
    三是例子丰富翔实,不长的篇幅包括了上百个学术和商业的实例。
引言 一场生活、工作与思维的大变革
  • 大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发……
大数据,变革公共卫生
  • 在甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了
    一篇引人注目的论文。它令公共卫生官员们和计算机科学家们感到震惊。文中解释了谷歌为什
    么能够预测冬季流感的传播:不仅是全美范围的传播,而且可以具体到特定的地区和州。谷歌
    通过观察人们在网上的搜索记录来完成这个预测,而这种方法以前一直是被忽略的。谷歌保存
    了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令,如此庞大的数
    据资源足以支撑和帮助它完成这项工作。
  • 2009年甲型H1N1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个
    更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。惊人的是,谷
    歌公司的方法甚至不需要分发口腔试纸和联系医生——它是建立在大数据的基础之上的。这是
    当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得 以一种前所未有的方式,通过对海量数据进行分析,获得
    有巨大价值的产品和服务,或深刻的洞见。 有巨大价值的产品和服务,或深刻的洞见。

大数据,变革商业
  • 2003年,奥伦·埃齐奥尼(Oren  Etzioni)准备乘坐从西雅图到洛杉矶的飞机去参加弟弟的婚
    。他知道飞机票越早预订越便宜,于是他在这个大喜日子来临之前的几个月,就在网上预订
    一张去洛杉矶的机票。在飞机上,埃齐奥尼好奇地问邻座的乘客花了多少钱购买机票。当得
    虽然那个人的机票比他买得更晚,但是票价却比他便宜得多时,他感到非常气愤。于是,他
    询问了另外几个乘客,结果发现大家买的票居然都比他的便宜。
  • 埃齐奥尼表示,他不需要去解开机票价格差异的奥秘。他要做的仅仅是预测当前的机票价
    格在未来一段时间内会上涨还是下降。这个想法是可行的,但操作起来并不是那么简单。这个
    系统需要分析所有特定航线机票的销售价格并确定票价与提前购买天数的关系。
  • 这个系统为了保障自身的透明度,会把对机票价格走势预测的可信度标示出来,供消费者
    参考。系统的运转需要海量数据的支持。为了提高预测的准确性,埃齐奥尼找到了一个行业机
    票预订数据库。而系统的预测结果是根据美国商业航空产业中,每一条航线上每一架飞机内的
    每一个座位一年内的综合票价记录而得出的。如今,Farecast已经拥有惊人的约2000亿条飞行数
    据记录。利用这种方法,Farecast为消费者节省了一大笔钱。


大数据、变革思维
  • 数据不再认为数据时静止和陈旧的
  • 数据已经成为一种商业资本,一项重要的经济投入,可以创造新的经济效益
  • 信息总量的变化还导致了信息形态的变化——量变引起质变
  • 大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。
  • 大数据是人们获得新的认知、创造新的价值的源泉:大数据还是改变市场、组织机构、以及政府与公民关系的方法
  • 社会需要放弃它对因果关系的渴望,而仅仅需要关注相关关系

大数据,开启重大的时代转型
  • 真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据
  • 人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长熟读快9倍
  • 大数据也一样,量变导致质变
  • 大数据的科学价值和社会价值正是体现在这里。一方面,对大数据的掌握程度可以转化为经济价值的来源。另一方面,大数据已经撼动了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域。

预测,大数据的核心
  • 大数据的核心就是预测
  • 在不久的将来,世界许多限制单纯依靠人类判断力的领域都会被计算机系统所改变甚至取代。

大数据,大挑战
  • 第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖随机采样。
  • 第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。
  • 第三个转变因前两个转变而促成,即我们不再热衷于寻早因果关系。
    • 大数据告诉我们“是什么”而不是“为什么”。
    • 不必知道现象背后的原因,我们只要让数据自己发声
  • 模拟时代的数据收集和分析极其耗时耗力,新问题的出现通常要求我们重新收集和分析数据。数字化的到来使得数据管理效率又向前迈出了重要的一步。数字化将模拟数据转换成计算
    机可以读取的数字数据,使得存储和处理这些数据变得既便宜又容易,从而大大提高了数据管理效率。过去需要几年时间才能完成的数据搜集,现在只要几天就能完成。但是,光有改变还
    远远不够。数据分析者太沉浸于模拟数据时代的设想,即数据库只有单一的用途和价值,而正是我们使用的技术和方法加深了这种偏见。虽然数字化是促成向大数据转变的重要原因,但仅有计算机的存在却不足以实现大数据
  • 数据化意味着我们要从一切太阳底下的事物中汲取信息,,甚至包括很多我们以前认为和很我们以前认为和“信息 信息”根本搭不上边的事情。比方说,一个人所在的位置、引擎的振动、桥梁的承重等。我们要通过量化的方法把这些内容转化为数据。这就使得我们可以尝试许多以前无法做到的事情,
  • 大数据时代开启了一场寻宝游戏,而人们对于数据的看法以及对由因果关系向相关关系转变时释放出的潜在价值的态度,正是主宰这场游戏的关键
  • 每个数据集内部都隐藏着某些未被发掘的价值
  • 20世纪,价值已经从实体基建转变为无形财产,从土地和工厂转变为品牌和产权。
  • 电脑存储和分析数据的方法取代电脑硬件成为了价值的源泉
  • 在一个可能性和相关性占主导地位的世界里,专业性变得不那么重要了。
  • 对我们而言,危险不再是隐私的泄漏,而是被预知的可能性

第一部分 大数据时代的思维变革
1、更多:不是随机样本,而是全体数据
穿孔卡片与美国人口普查
大数据与乔布斯癌症治疗
Xoom与跨境汇款异常交易警报
巴拉巴西与第一次全社会层面的网络分析
  • 让数据“发声”
    • “大数据”全在于发现和理解信息内容及信息与信息之间的关系
    • 三个重要思维的转变
      • 首先,要分析与某事物相关的所有数据,而不是依靠少量的数据样本
      • 其次,我们乐于接受数据的纷繁复杂,而不再追求精确性
      • 最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系
  • 小数据时代的随机采样,最少的数据获得最多的信息
    • 采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大
    • 当样本数量达到了某个值之后,我们从新个体身上得到的信息会越来越少,就如同经济学中的边际效应递减一样
    • 认为样本选择的随机性比样本数量更重要,这种观点是非常有见地的
    • 随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但这只是一条捷径,是在不可收集和分析所有数据的情况下的选择,它本身存在许多固有的缺陷。
    • 只研究样本而不是整体,有利有弊:能更快更容易地发现问题,但不能回答实现未考虑到的问题
  • 全数据模式,样本=总体
    • 采样的目的就是用最少的数据得到最多的信息。
    • 生活中真正有趣的事情经常藏匿在细节之中,而采样分析法却无法捕捉到这些细节
    • 大数据是指不用随机分析法这样的捷径,而 大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。
    • 大数据是建立在掌握所有数据,至少是尽可能多的数据的基础上的。
    • 当然,有些时候,我们还是可以使用样本分析法,毕竟我们仍然活在一个资源有限的时
      代。
     
2、更杂:不是精确性,而是混杂性
                    微软与语料库数据添加
                    IBM Candidate计算机翻译项目
                    无所不包的谷歌翻译系统
                    英国石油公司于无线传感器
                    麻神理工与通货紧缩预测软件
                    Hadoop与VISA的13分钟
  • 允许不精确
    • 使用所有可获取的数据变得更为可能,但为此也要付出一定的代价。数据量的大幅增加造成结果的不准确
    • 我们需要与各种各样的混乱斗争
    • 论乱:错误率、格式不一致
    • 案例:葡萄牙温度、word程序中语法检查方法
  • 大数据的简单算法比小数据的复杂算法更有效
    • IBM的Candide
    • 案例:无所不包的谷歌翻译系统
  • 纷繁的数据越多越好
    • 大数据时代要求我们重新审视精确性的优劣
    • 大数据不仅让我们不再期待精确性,也让我们无法实现精确性
    • 错误并不是大数据固有的特性,而是一个急需解决我们去处理的现实问题,并且有可能长期存在
    • 案例:麻省理工与通货紧缩预测软件
  • 混杂性,不是竭力避免,而是标准途径
    • 互联网上最火的网址都表明,它们欣赏不精确而不会假装精确
    • 着并不代表系统不知道正确的数据时多少,只是当数据规模变大的时候,确切的数量已经不那么重要
    • 要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的
  • 新的数据库涉及的诞生
    • 多样性是一种解决的方法
    • 案例:Hadoop
    • 容忍错误会给我们带来更多价值
    • 第一个折中是,我们默认自己不能使用更多的数据,所以我们就不会使用更多的数据
    • 第二个折中出现在数据的质量上
    • 相对依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事实的真相

3更好:不是因果关系,而是相关关系
 
沃尔玛,请把蛋挞与飓风用品摆在一起
FICO,“我们知道你明天会做什么”
美国折扣零售商塔吉特与怀孕预测
UPS与汽车修理预测
大数据预测早产儿病情
幸福感的非线性关系
二手车质量预测
纽约大型沙井盖爆炸预测
  • 林肯与亚马逊推荐系统
    • 推荐系统实际上并没有必要把顾客与其他顾客进行对比,这样做其实是技术上也比较烦琐,它需要做的是找到产品之间的关联性
    • 知道“是什么”可以创造点击率,这种洞察力足以重塑很多行业,不仅仅只是电子商务。
    • 知道是什么就够了,没必要知道为什么
  • 关联物,预测的关键
    • 相关关系的核心是量化两个数据值之间的梳理关系
    • 通过给我们找到一个现象的良好关联物,相关关系可以帮助我们捕捉现在和预测未来
    • 当数据点以数量级方式增长的时候,我们会观察到许多似是而非的相关关系。
    • 我们现在拥有如此多的数据,这么好的计算机计算能力,而且不再需要人工选择一个关联物或者一小部分相似数据来逐一分析
    • 大数据的相关关系分析法更准确、更快,而且不易受偏见的影响
    • 建立在相关分析基础上的预测是大数据的核心
    • 同样有用的一种方法是,通过找到新种类数据之间的相互联系来解决日常需要
    • 通过找到一个关联物并监控它,我们就能预测未来
    • 收集与分析数据的话费比出现停产的损失小得多
    • 当收集、储存和分析数据的成本比较高的时候,应该适当地丢弃一些数据
    • 预测早产儿这个系统依赖的是相关关系,而不是英国关系。它告诉你的是会发生什么而不是为什么发生,这正是这个系统的价值
    • 麦格雷戈博士的数据表明,早产儿的稳定不但不是病情好转的标志,反而是暴风雨前的宁静,就像是身体要它的器官做好抵抗困难的准备
  • “是什么”,而不是“为什么”
    • 小数据时代与相关关系和因果关系分析都不容易,而且这些分析都有受偏见影响的可能。
    • 小数据时代仅限于线性分析,实际情况特别复杂,很多都是“非线性关系”
    • 专家们正在研发能发现对比分析非线性关系的必要技术工具
    • 人的两种思维,第一种是不费力的快速思维,通过这种思维方式几秒就能得出结果;另一种是比较费力的慢性思维,对于特定的问题,就是需要考虑到位。
    • 相关关系很有用,不仅仅是因为它能为我们提供新的视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些死角就有可能被蒙蔽掉
    • 黄色小车与质量的问题
    • 在知道是什么后,我们就会继续向更深层次研究因果关系,找出背后的“为什么”
  • 改变,从操作方式开始
    • 我们需要改变我们的操作方式,使用我们能收集到的所有数据,而不仅仅是使用样本。我们不能再把精确性当成重心,我们需要接受混乱和错误的存在。另外,我们应该侧重于分析相关关系,而不再寻求每个预测背后的原因。
  • 大数据,改变人类探索世界的方法
    • 因为不受限于传统的思维模式和特定领域里隐含的固有偏见,大数据才能为我们提供如此多新的深刻洞见。
    • 大数据时代将要释放出的巨大价值使得我们选择大数据的理念和方法不再是一种权衡,而是通往未来的必然改变。但是在我们到达目的地之前,我们有必要了解怎样才能到 达。

 
第二部分 大数据时代的商业变革
04数据化:一切皆可“量化”
                              日本先进工业技术研究院的坐姿研究与汽车防盗系统
                              谷歌的数字图书馆
                              多效地理定位于UPS的最佳行车路径
                              Foursquare,让用户在最喜爱的地方“check in"
                              用手机数据预测疾病传播与城市繁荣
                              英国对冲基金公司,用微博数据预测股市投资时机
                              睡眠活动数据库与睡眠模式预测
                              GPS感应器,判断环境因素对哮喘病的影响
  • 莫里的导航图,大数据的最早实践之一
    • 许多船挂了一面特殊的旗帜,表明它参与了这个信息交流计划。这些旗帜就是出现在一些网站上的友情链接的前身。
  • 数据从最不可能的地方提取出来
    • 大数据的核心就是挖掘出庞大的数据库独有的价值
    • 远在信息数据化之前,对数据的运用就已经开始了
  • 数据化,不是数字化
    • 数据化,这是指一种把现象转变可制表分析的量化形式的过程。
    • 数字化是把模拟数据转换成用0和1表示的二进制码
    • 为了得到可量化的信息,我们要知道如何计量;为了数据化量化了的信息,我们要知道怎么记录计量的结果。
  • 量化一切,数据化的核心
    • 计量和记录一起促成了数据的诞生,它们是数据化最早的根基
    • 数字化带来了数据化,但是数字化无法取代数据化
  • 当文字成为数据
    • 谷歌的数字图书馆
    • 但文字变成数据,它就大显神通了——人可以用之阅读,机器也可以用之分析。
    • 作为典型的大数据公司,谷歌自然知道收集信息并进行数据化的价值,这些数据有非常多的潜在用途。
  • 当方位变成数据
    • “现实挖掘”这里指的是通过处理大量来自手机的数据,发现和预测人类行为。
    • 位置信息一被数据化,新的用途就犹如雨后春笋般涌现出来,而新价值也会随之不断催生。
  • 当沟通变成数据
    • Twitter情绪数据化
    • 社交图谱  FICO
    • twitter情感分析以获得顾客反馈意见的汇总或对营销获得的效果进行判断
    • 监听新微博的发布频率,他们就能预测一部电影的成败
    • 微博关联与疫苗接种
  • 世间万物的数据化
    • 只要一点想象,万千事物就能转化为数据形式,并一直带给我们惊喜。
    • 物联网只是一种典型的数据化手段
    • 有了大数据的帮助,我们不会再将世界看作是一连串wim认为或是自然或是社会现象的时间,我们会意识到本质上世界是由信息构成的。
    • 将世界看作信息,看作可以理解的数据还有,为我们提供了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观。

转载于:https://www.cnblogs.com/xiatiandeye/p/3368771.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值