读书笔记《大数据时代》

大数据之简介

    大数据时代处理数据理念上的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果;接着,从万事万物数据化和数据交叉复用的巨大价值两个方面,讲述驱动大数据战车在材质和智力方面向前滚动的最根本动力;最后,作者冷静描绘了大数据帝国前夜的脆弱和不安,包括产业生态环境、数据安全隐私、信息公正公开等问题。

 

Date 1:

  大数据开启一起重大的时代转型。

   本书三个典型的实例,讲述大数据对人们实际生活的转变。

   1、变革公共卫生。谷歌通过人们多年以来在网上的搜索记录,来预测对于流感的发生。

   2、变革商业。奥伦创立预测系统,从旅游网站上爬取价格样本,利用其它航班的数据从而预测未来机票价格走势。

   3、变革思维。处理的信息量过大,从而改进处理数据的工具,创造新的处理技术的诞生,例如谷歌的MapReduce和开源Hadoop平台(最开始源于雅虎)。

   真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据。

  当我们改变规模时,事物的状态有时也会发生改变。大数据也一样,量变导致质变。

  大数据的核心就是预测。他通常被视为人工智能的一部分,或者更确切的说,被视为一种机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反,它是把数学算法运用到海量的数据上来预测事件发生的可能性。随着系统接受的数据越来越多,它们可以聪明到自动搜索最好的信号和模式,并自己改善自己。(反馈学习机制,利用自己产生的数据判断自身算法和参数选择的有效性,并实时进行调整,持续改进自身的表现)

 

Date 2:

  分析信息时的三个转变:

   1、在大数据时代,我们可以分析更多的数据,有时甚至可以处理和某个特别现象相关的所有数据,而不依赖于随机采样。

   2、研究数据之多,我们不再热衷于追求精确度。

   3、不再热衷于寻求因果关系,转于寻求其相关关系。

  将生活中的一切数据化,从生活中寻找数据,通过量化的方法进行转化。人们对于数据的看法由因果关系向相关关系转化,挖掘潜在价值。

  大数据的负面影响,新的规章制度保卫个人权利。

 

Date 3

   让数据发声

1.不是随机样本,而是全体数据

  小数据时代的随机采样,用最少的数据获得最多的信息。

  采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。

  随机采样的调查结果缺乏延展性,即调查得出的数据不可以重新分析以实现计划之外的目的。

  只研究样本而不是整体,有利有弊:能更快更容易地发现问题,但不能回答事先未考虑到的问题。

  我们实行全数据模式,样本=总体。

  大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。

2.不是精确性,而是混杂性

  随着数据的增加,错误率也会相应增加。

  为了扩大规模,我们接受适量的错误的存在。以此来了解大致的发展趋势。

   “大数据通常用概率说话,而不是板着确凿无疑的面孔。整个社会要习惯这种思维需要很长的时间,其中也会出现一些问题。但现在,有必要指出的是,当我们试图扩大数据规模的时候,要学会拥抱混乱。

   谷歌的翻译之所以更好并不是因为它拥有一个更好的算法机制。和微软的班科和布里尔一样,这是因为谷歌翻译增加了很多各种各样的数据。从谷歌的例子来看,它之所以能比IBM Candide系统多利用成千上万的数据,是因为它接受了有错误的数据。2006年,谷歌发布的上万亿的语料库,就是来自于互联网的一些废弃内容。这就是训练集,可以正确地推算出英语词汇搭配在一起的可能性。

   错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。

    混杂性,不是竭力避免,而是标准途径。

   相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事实的真相。部分确切的吸引力是可以理解的。但是,当我们的视野局限在我们可以分析和能够确定的数据上时,我们对世界的整体理解就可能产生偏差和错误。不仅失去
了去尽力收集一切数据的动力,也失去了从各个不同角度来观察事物的权利。所以,局限于狭隘的小数据中,我们可以自豪于对精确性的追求,但是就算我们可以分析得到细节中的细节,也依然会错过事物的全貌。

 

Date 4

3.不是因果关系,而是相关关系

   典例:亚马逊推荐系统

   一开始先用传统的方法对其进行处理,通过样本分析找到客户之间的相似性。

   但是,推荐系统实际上并没有必要把顾客与其他的顾客进行对比。它需要做的是找到物品间的关联性。“item-to-item”协同过滤技术

   知道人们为什么对这些信息感兴趣可能是有用的,但这个问题目前并不是很重要。但是,知道是什么可以创造点击率,这种洞察力足以重塑很多行业,不仅仅只是电子商可以创造点击率,这种洞察力足以重塑很多行业,不仅仅只是电子商务。务。所有行业中的销售人员早就被告知,他们需要了解是什么让客户做出了选择,要把握客户做决定背后的真正原因,因此专业技能和多年的经验受到高度重视。大数据却显示,还有另外一个在某些方面更有用的方法。亚马逊的推荐系统梳理出了有趣的相关关系,但不知道背后的原因。知道是什么就够了,没必要知道为什么。

   关联物,预测的关键。

    相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。我们已经看到过这种很强的相关关系,比如谷歌流感趋势:在一个特定的地理位置,越多的人通过谷歌搜索特定的词条,该地区就有更多的人患了流感。相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。例如,我们可以寻找关于个人的鞋码和幸福的相关关系,但会发现它们几乎扯不上什么关系。

  相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。当然,即使是很强的相关关系也不一定能解释每一种情况,比如两个事物看上去行为相似,但很有可能只是巧合。如实证学家纳西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)所言,我们可能只是被随机性所愚弄而已。相关关系没有绝对,只有可能性。也就是说,不是亚马逊推荐的每本书都是顾客想买的书。但是,如果相关关系强,一个相关链接成功的概率是很高的。这一点很多人可以证明,他们的书架上有很多书都是因为亚马逊推荐而购买的。通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。

   过去,人们总是先有了想法,然后才能收集数据来测试这个想法的可行性。如今,我们有了如此之多的数据和更好的工具,所以要找到相关系变得更快、更容易了。这就意味着我们必须关注:当数据点以数量级方式增长的时候,我们会观察到许多似是而非的相关关系。

    建立在相关关系分析法基础上的预测是大数据的核心。建立在相关关系分析法基础上的预测是大数据的核心。这种预测发生的频率非常高,以至于我们经常忽略了它的创新性。当然,它的应用会越来越多。

 

Date 5

   抓住是什么,而非为什么。发现数据的非线性关系   

   大数据推动了相关关系分析。相关关系分析通常情况下能取代因果关系起作用,即使不可取代的情况下,它也能指导因果关系起作用。

    大数据是在理论的基础上形成的。比方说,大数据分析就用到了统计和数学理论,有时候也会用到计算机科学理论。

   莫里的导航图,大数据的最早实践之一。

   数字化带来了数据化,但是数数字化带来了数据化,但是数字化无法取代数据化。字化无法取代数据化。数字化是把模拟数据变成计算机可读的数据,和数据化有本质上的不同。

 

Date 6

  将信息数据化:

   1.方位数据化 GPS

   2.沟通数据化 Twitter

   3.世间万物的数据化

     采集信息并将之存储为数据形式再加以利用。几乎所有领域,任何事情都能这样处理。


Date 7

  ReCaptcha与数据再利用。

  数据的基本用途为信息的收集和处理提供了依据。

  不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。

  数据创新:

   1.数据再利用

      典例:搜索关键字

   2.重组数据

      随着大数据的出现,数据的总和比部分更有价值。当我们将多个数据集的总和重组在一起时,重组总和本身的价值也比单个总和更大。

   3.可拓展数据

      收集尽可能多的 数据并在一开始的时候就考虑到各种潜在的二次用途并使其具有扩展性是非常有意义的。这增加了数据的潜在价值。问题的关键是寻找“一份钱两份货”,即如果以某种方式收集的单一数据集有多种不同的用途,它就具有双重功能。

      例如:

      在店内安装了监控摄像头,这样不仅能认出商店扒手,还能跟踪 在商店里购物的客户流和他们停留的位置。零售商利用后面的信息可以设计店面的最佳布局并 判断营销活动的有效性。

   4.数据的折旧值

      即使数据用于基本用途的价值会减 即使数据用于基本用途的价值会减少,但潜在价值却依然强大。

   5.数据废气

      它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。

   6.开放数据

  

  给数据估值:

     公司账面价值和市场价值之间的差额被记为“无形资产”。

     一个办法是从数据持有人在价值提取上所采取的不同策略入手,最常见的一种可能性就是将数据授权给第三方。


Date 8

   角色定位:数据、技术与思维的三足鼎立

   Decide.com与商品价格预测

   大数据价值链的三大构成:

   1.基于数据本身的公司

   2.基于技能的公司

   3.基于思维的公司


   重点(统计学,数据库管理,掌握机器理论)

   (心灵鸡汤:“如果你想成功,你不应该成为一个普通的、可被随意替代的人”)

  

   对于拥有数据的公司,即能够接触到数据,有权使用数据或者将数据授权给渴望挖掘数据的公司:尽量的处于数据链的中心位置,占据收集数据和挖掘数据的黄金位置。

   对于拥有专业技术和技能的公司:分析数据,前景不足。

   对于拥有大数据思维的公司和个人:能先人一步发现机遇,尽管本身并不拥有数据也不具备专业技能。

   (所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案)


   数据中间商?

   例如:

   交通数据处理公司Inrix:把它收集到的数据卖给了一个投资基金,这个投资基金把交通情况视作一个大 型零售商场销量的代表,一旦附近车辆很多,就说明商场的销量会增加。在商场的季度财政报表公布之前,这项基金还利用这些数据分析结果换得了商场的一部分股份。

   Hitwise:与一些互联网服务公司合作,它支付给这些公司一些费用以使用它们的数据。这些数据只是以一个固定的低价授权给Hitwise,而不是按它所得利润的比例抽成。这样一来,Hitwise作为中间人就得到了大部分的利润。

   Quantcast:它通过帮助网站记录用户的网页浏览历史来测评用户的年龄、收入、喜好等个人信息,然后向用户发 送有针对性的定向广告。它提供了一个在线系统,网站通过这个系统就能记录用户的浏览情 况,而Quantcast就能得到这些数据来帮助自己提高定向广告的效率。

  

   大数据公司的多样性表明了数据价值的转移。随着数据价值转移到数据拥有者手上,传统的商业模式也被颠覆了。

   行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。他们的判断建立在相关关系的基础上,没有受到偏见和成见的影响。


Date 9:

     大数据,决定企业竞争力。

    已经拥有的技术配备规模固然很重要,但那也不是它们的核心竞争力,毕竟如今已经能够快速而廉价地进行大量的数据存储和处理了。公司可以根据实际需要调整它们的计算机技术力量,这样就把固定投入变成了可变投入,同时也削弱了大公司的技术配备规模的优势。

   超大型的公司占据了规模优势,而小公司则具有灵活性。在传统行业中,中等规模的公司比大公司更有灵活性,比小公司更有规模。但是在大数据时代,一个公司没必要非要达到某种规模才能支付它的生产设备所需投入。大数据公司发现它们可以是一 个灵活的小公司并且会很成功(或者会被大数据巨头并购)。

   大数据也会撼动国家竞争力。

  

Date 10:

     大数据时代的管理变革

       大数据时代的到来,我们有着让数据主宰一切的隐忧。

     进行大数据分析的人可以轻松地看到大数据的价值潜力,这极大地刺激着他们进一步采 集、存储、循环利用我们个人数据的野心。随着存储成本继续暴跌而分析工具越来越先进,采集和存储数据的数量和规模将爆发式地增长。

   大数据还会带来更多的威胁,毕竟,大数据的核心思想就是用规模剧增 大数据还会带来更多的威胁,毕竟,大数据的核心思想就是用规模剧增 来改变现状。 来改变现状。我们也将分析它是如何加深对我们隐私的威胁的,同时还将面对一个新的挑战, 即运用大数据预测来判断和惩罚人类的潜在行为。这是对公平公正以及自由意志的一种亵渎, 同时也轻视了决策过程中深思熟虑的重要性。

   预测与惩罚,不是因为所做,而是因为“将做”。

   大数据有利于我们理解现在和预见未来的风险,如此一来,我们就可以相对应地采取应对 措施。大数据预测可以帮助患者、保险公司、银行和顾客,但是大数据不能告诉我们因果关 系。相对地,进行个人罪责推定需要行为人选择某种特定的行为,他的选择是造成这个行为的 原因。但大数据并不是建立在因果关系基础上的,所以它完全不应该用来帮助我们进行个人罪 责推定。
   掌控:责任与自由并举的信息管理
   管理变革1:个人隐私保护,从个人许可到让数据使用者承担责任

   管理变革2:个人动因 :个人动因VS预测分析

   管理变革3:击碎黑盒子,大数据算法师的崛起   外部算法师与内部算法师

   管理变革4:反数据垄断大亨

   


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值