[读书总结]大数据时代

引言 一场生活、工作与思维的大变革

总结: 作者通过举出事实例子,告诉我们一个全新的时代已经到来,这个时代它不是快要或者就要而是已经到来 (以2010年以前来看)。大数据时代最鲜明的标签便是

  1. 更大(more comprehensive)
  2. 更杂(more complex)
  3. 更好 (focus on relationship)

掌握了大数据便是掌握了一枚打开未来世界的钥匙。没有接受改变没有准备改变的人注定是要被淘汰的。

第一部分 大数据时代的思维变革

01.更多

所谓更多,指的是更加全面,样本=全体。巨细无遗的包含所有的数据。以传统的抽样统计作对比,指出传统的抽样统计只是一种捷径,而这种只关注点从而推出面的方法是因为时代局限所导致。传统的采样分析的精确性随着采样随机性的增加而大幅度提高,但与样本数量的增加关系不大,所以当样本数量到达了某个值之后,我们从新个体身上得到的信息越来越少,当收集和分析数据都不容易时,随机采样就成为应对信息采样困难的办法。这使得随机采样成为采样统计的新方法并快速的普及。但是,这不过是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在着许多固有缺陷。1

  1. 它的成功依赖于采样的绝对随机性但是现实采样的随机性非常困难。一旦采样过程中存在任何的偏见,分析的结果就会相差甚远。以调查民调为例子,如果只考虑到固定电话就会面临采样缺乏随机性的问题,因为没有考虑到移动电话的用户,没有考虑到这些用户自然得不到正确的预测。
  2. 随机采样不适合考查子类别的情况。因为一旦继续细分随机采样的结果的错误率会大大增加。假设完全随机的选取1000人来代表全民民调,当把这1000人以性别、地域、和收入进行细分时就不可能通过“东北部的富裕女性”细分出的几十个人来代表整个“东北部的富裕女性”选民的意愿。而且,一旦采样过程中存在任何偏见,在细分领域所得到的预测就会大错特错。因此,当人们想了解更深层次的细分领域的情况时,随机采样的方法就不可取了。在宏观领域起作用的方法在微观领域就失去了作用。
  3. 随机采样也需要严密的安排和执行。人们只能从采样数据中得出事先设计好的问题的结果——千万不要奢求采样的数据还能回答你突然意识到的问题,而且随机采样的结果缺乏延展性,即调查得出的数据不可以重新分析以实现计划之外的目的。

02.更杂

在随机采样中,收集的信息有限意味着细微的错误会被放大,甚至影响到整个结果的准确性,所以随机采样会致力于减少错误,保证质量。但是,在不断涌现的新情况里,允许不精确的出现已经成为一个新的亮点而非缺点。因为放松了容错标准,人们掌握的数据也多了起来,还可以利用这些数据做更多新的事情。大数据时代追求数据的精度是很难实现的,所以接受错误接受混乱才能加大处理数据的规模和能力。
在自然语言处理领域中的翻译,一组词通常会有多种可能的意思,在特定的语境下会有特定的意思。毕竟,翻译不仅仅只是记忆和复述,也涉及选词,在这种情况下明确的教会电脑这些是非常不现实的。以法语中的“bonjour”为例子,它的意思就一定是“早上好”吗?有没有”今天天气不错“、"吃了吗”或者“喂”?事实上都有可能。
20世纪80年代后期,IBM的研发人员提出了一个新的想法。与单纯教给计算机语言规则和词汇想比,他们试

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值