《大数据时代》读书笔记

  大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够 观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源 泉,而更多的改变正蓄势待发……

  大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法。

  第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和 某个特别现象相关的所有数据,而不再依赖于随机采样。 某个特别现象相关的所有数据,而不再依赖于随机采样。“样本=总体”

  例如:从未来的审计视角来看,上市公司应该赋予审计师更大的访问权限,不再局限于交易样本,而是扩展至全部的总分类账和数据库[1]

  第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。 第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。

  第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系,而应该寻找事物之间的相关关系。

  读书到这里,忽然想到应该看政府部门对大数据时代的意见:

  《国务院关于印发促进大数据发展行动纲要的通知》说到主要任务[2]

  (一)加快政府数据开放共享,推动资源整合,提升治理能力。
  
  ……
  
  6.形成大数据产品体系。围绕数据采集、整理、分析、发掘、展现、应用等环节,支持大型通用海量数据存储与管理软件、大数据分析发掘软件、数据可视化软件等软件产品和海量数据存储设备、大数据一体机等硬件产品发展,带动芯片、操作系统等信息技术核心基础产品发展,打造较为健全的大数据产品体系。大力发展与重点行业领域业务流程及数据应用需求深度融合的大数据解决方案。
  
  7.完善大数据产业链。
  
  (三)强化安全保障,提高管理水平,促进健康发展。

大数据时代的思维变革

  数字化带来了数据化,但是数字化无法取代数据化。数字化是把模拟数据变成计算机可读的数据,和数据化有本质上的不同。

让数据发声

  小数据的随机采样,最少的数据获得最多的信息 。采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量 的增加关系不大。的增加关系不大。

  大数据是指不用随机分析法这样的捷径,而大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。

允许不精确

  不是大量数据优于少量数据那么简单了,而是大量数据创造了更好的结果。

  大数据基础上的简单算法比小数据基础上的复杂算法更加有效。

  大数据不仅让我们不再期待精确性,也让我们无法实现精确性。 大数据不仅让我们不再期待精确性,也让我们无法实现精确性。

  例如:麻省理工与通货紧缩预测软件。

  麻省理工学院(MIT)的两位经济学家,阿尔贝托·卡瓦略(Alberto Cavell)和罗伯托·里哥本(Oberto Rigobon)就对此提出了一个大数据方案,那就是接受更混乱的数据。通过一个软件在互联网上收集信息,他们每天可以收集到50万种商品的价格。收集到的数据很混乱,也不是 所有数据都能轻易进行比较。但是把大数据和好的分析法相结合,这个项目在2008年9月雷曼兄弟破产之后马上就发现了通货紧缩趋势,然而那些依赖官方数据的人直到11月份才知道这个情况。

  值得注意的是,错误性并不是大数据本身固有的。它只是我们用来测量、记录和交流数据 的工具的一个缺陷。如果说哪天技术变得完美无缺了,不精确的问题也就不复存在了。错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。

纷繁的数据越多越好

  传统的商业职能,“一个唯一的真理”这种想法已经彻底被改变了。现在不但出现了一种新的认识, 即“一个唯一的真理”的存在是不可能的,而且追求这个唯一的真理是对注意力的分散。要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。

  例如:在某个记录手机号码的域中输入一串汉字。传统的关系数据库是为数据稀缺的时代设计的,所以能够也需要仔细策划。在那个时代,人们遇到的问题无比清晰,所以数据库被设计用来有 效地回答这些问题。

  据估计,只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下95%的非结构化数据都无法被利用,比如网页和视频资源。通过接受不精确性,我们打开了一 个从未涉足的世界的窗户。

不是因果关系,而是相关关系

  亚马逊的推荐系统梳理出了有趣的相关关系,但不知道背后的原因。知道是什么就够了,没必要知道为什么。

  相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。我们已经看到过这种很强的相关关系,比如谷歌流感趋势:在一个特定的地理位置,越多的人通过谷歌搜索特定的词条,该地区就有更多的人患 了流感。

  相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。

  例如:流程优化后的数据,营业销售套餐销售额、利润的变化…

  中医、西医的对比,就是相关性、允许不精确的体现。

  在哲学界,因果关系是否存在,因果关系与自由意思相对立。

  快速思维模式,用因果关系看待周围世界;

  父母经常告诉孩子,天冷时不戴帽子和手套就会感冒。然而,事实上,感冒和穿戴之间却没有直接的联系。有时,我们在某个餐馆用餐后生病了的话,我们就会自然而然地觉得这是餐馆食物的问题,以后可能就E4��再去这家餐馆了。事实上,我们肚子痛也许是因为其他的传染途径,比如和患者握过手之类的。然而,我们的快速思维模式使我们直接将其归于任何我们能在第一时间想起来的因果关系,因此,这经常导致我们做出错误的决定。
  
  与常识相反,经常凭借直觉而来的因果关系并没有帮助我们加深对这个世界的理解。很多时候,这种认知捷径只是给了我们一种自己已经理解的错觉,但实际上,我们因此完全陷入了理解误区之中。就像采样是我们无法处理全部数据时的捷径一样,这种找因果关系的方法也是我们大脑用来避免辛苦思考的捷径。

  慢性思维模式

  即使是我们用 来发现因果关系的第二种思维方式——慢性思维,也将因为大数据之间的相关关系迎来大的改变。

  相关关系分析本身意义重大,同时它也为研究因果关系奠定了基础。通过找出可能相关的 事物,我们可以在此基础上进行进一步的因果关系分析,如果存在因果关系的话,我们再进一 步找出原因。这种便捷的机制通过严格的实验降低了因果分析的成本。我们也可以从相互联系 中找到一些重要的变量,这些变量可以用到验证因果关系的实验中去。

大数据时代的商业变革

数据化:一切皆可“量化”

  量化一切,数据化的核心。计量和记录一起促成了数据的诞生,它们是数据化最早的根基。

  复式记账法通常被看成是会计业和金融业不断发展的成果。事实上,在数据利用的推进过程中,它也是一个里程碑似的存在。它的出现实现了相关账户信息的“分门别类”记录。 它建立在一系列记录数据的规则之上,也是最早的信息记录标准化的例子,使得会计们能够读 懂彼此的账本。复式记账法可以使查询每个账户的盈亏情况变得简单容易。它会提供交易的记 账线索,这样就更容易找到需要的数据。它的设计理念中包含了“纠错”的思想,这也是今天的 技术人才们应该学习的。

  数据化内容:

数据化内容大数据先锋
文字变成数据谷歌的数字图书馆
方位变成数据多效地理定位与UPS的最佳行车路径
沟通变成数据微博关联与疫苗接种

  有了大数据的帮助,我们不会再将世界看作 有了大数据的帮助,我们不会再将世界看作 是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成 是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成 的。

  将世界看作信息,看作可以理解的数据的海洋,为我们提供了一个从未有过的审视现 将世界看作信息,看作可以理解的数据的海洋,为我们提供了一个从未有过的审视现 实的视角。它是一种可以渗透到所有生活领域的世界观。

价值:“取之不尽,用之不竭”的数据创新

数据创新案例
1:数据的再利用移动运营商与数据再利用
2:重组数据丹麦癌症协会:手机是否增加致癌率
3:可扩展数据谷歌街景与GPS采集
4:数据的折旧值
5:数据废气微软与谷歌的拼写检查
6:开放数据FlyOnTime的航班时间预测

  其中,数据废气和开发数据需要重新认识:

  数据废气是许多电脑化服务背后的机制,如语音识别、垃圾邮件过滤、翻译等。当用户指 出语音识别程序误解了他们的意思时,他们实际上有效地“训练”了这个系统,让它变得更好。

  很多企业都开始设计他们的系统,以这种方式收集和使用信息。

例如:大数据在业务流程系统上的应用:
流程流转数据、待办处理数据、访问操作日志;
如果没有访问操作日志,可以从Apache HTTP日志中获取,每次的URL。
BPM做为粘合剂,将为大数据收集数据、整理数据提供便捷的方法,也为大数据分析提供了一个纬度。[3]

  政府才是大规模信息的原始采集者,并且还在与私营企业竞争他们所控制的大量数据。让“开放政府数据”的倡议响彻全球。

 注意观察:冠名政府的大数据资产管理公司,将如雨后春笋般的冒出来。

  数据价值的关键是看似无限的再利用,即它的潜在价值。收集信息固然至关重要,但还远 远不够,因为大部分的数据价值在于它的使用,而不是占有本身。

角色定位:数据、技术与思维的三足鼎立

  根据所提供价值的不同来源,分别出现了三种大数据公司。这三种来源是指:数据本身、 技能与思维。

  第一种是基于数据本身的公司。 第一种是基于数据本身的公司。这些公司拥有大量数据或者至少可以收集到大量数据,却 不一定有从数据中提取价值或者用数据催生创新思想的技能。最好的例子就是Twitter,它拥有 海量数据这一点是毫无疑问的,但是它的数据都通过两个独立的公司授权给别人使用。

  第二种是基于技能的公司。 第二种是基于技能的公司。它们通常是咨询公司、技术供应商或者分析公司。它们掌握了 专业技能但并不一定拥有数据或提出数据创新性用途的才能。比方说,沃尔玛和Pop-Tarts这两 个零售商就是借助天睿公司(Teradata)的分析来获得营销点子,天睿就是一家大数据分析公 司。

  第三种是基于思维的公司。 第三种是基于思维的公司。皮特·华登(Pete Warden),Jetpac的联合创始人,就是通过想 法获得价值的一个例子。Jetpac通过用户分享到网上的旅行照片来为人们推荐下次旅行的目的 地。对于某些公司来说,数据和技能并不是成功的关键。让这些公司脱颖而出的是其创始人和 员工的创新思维,他们有怎样挖掘数据的新价值的独特想法。

  结合实际工作,典型专业化大数据运营公司案例如图所示。

这里写图片描述

大数据时代的管理变革

风险:让数据主宰一切的隐忧 ,无处不在的“第三只眼”,谨防数据独裁。

  大数据大大地威胁到了我们的隐私和自由,这都是大数据带来的新威胁。但是与此同时, 它也加剧了一个旧威胁:过于依赖数据,而数据远远没有我们所想的那么可靠。

  美国军方在越战时对数据的使用、滥用和误用给我们提了一个醒,在由“小数据”时代向大 数据时代转变的过程中,我们对信息的一些局限性必须给予高度的重视。数据的质量可能会很 差;可能是不客观的;可能存在分析错误或者具有误导性;更糟糕的是,数据可能根本达不到 量化它的目的。

责任与自由并举的信息管理,

  一场管理规范的变革
  
  我们在生产和信息交流方式上的变革必然会引发自我管理所用规范的变革。同时,这些变革也会带动社会需要维护的核心价值观的转变。

  可是,变革并不止于规范。大数据时代,对原有规范的修修补补已经满足不了需要,也不足以抑制大数据带来的风险 ——我们需要全新的制度规范。

  将责任从民众转移到数据使用者很有意义,也存在充分的理由,因为数据使用者比任何人 都明白他们想要如何利用数据。除了管理上的转变,即从个人许可到数据使用者承担相应责任的转变,我们也需要发明并推行新技术方式来促进隐私保护。一个创新途径就是“差别隐私”:故意将数据模糊处理,促使 对大数据库的查询不能显示精确的结果,而只有相近的结果。

  在自由与隐私的范畴里,还需要大数据审计和大数据监督。

  这一切都意味着,一个员工是否对公司有贡献的判断标准改变了。这也就意味着,你要学的东西、你要了解的人,你要为你的 职业生涯所做的准备都改变了。

  大数据时代,名副其实的“信息社会”。

[1] 《详解审计工作中如何利用大数据》 百度.文库 雪姬 2014.05
[2] 《国务院关于印发促进大数据发展行动纲要的通知》 中国政府网 国发〔2015〕50号
[3]《探讨BPM与大数据的关系一数据驱动BPM 》 肖永威 2016.05

  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
读书笔记1: 《大数据时代》生活、工作和思维的大变革 【英】维克托·迈尔—舍恩伯格 肯尼斯·库克耶著 大数据标志着人类在寻求量化和理解世界的道路上前进了一大步。过去不可计量 、储存、分析和共享的很多东西都被数据化了。拥有大量的数据多不那么精确的数 据为我们理解世界打开了一扇大门。社会所以放弃了寻找因果关系的传统偏好,开始挖 掘相关系数的好处。 "大数据"的本质是思维、商业和管理领域前所未有的大变革。由此,必然会带来 教学方式的改变。 大数据与三个重大的思维转变相关,这三个转变是相互联系和相互作用的。 首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。 其次,我们乐于接受数据的纷繁复杂,而不再追求精确性。 最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而注重事物的相关关 系。 数据创新就像一个神奇的钻石矿,当它的首要价值被发掘后仍能持续给予。 它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝绝大部分 都隐藏在表面之下。 当世界开始迈向大数据时代,社会也将经历类似的地壳运动。在改变人类基 本的生活与思考方式的同时,大数据早已在推动人类信息管理准则的重新定位。不过 ,不同于印刷革命,我们没有几个世纪的时间去适合,我们也许只有几年时间。 大数据,给我们带来了机遇、风险和挑战。它们持续对我们管理世界的方法 提出挑战,我们要意识到新技术的风险,促动其发展,然后然后斩获成果。 大数据标志着真正的"信息社会"终于到来了。我们能够获得比以前多的信 息并实行分析。在我们诠释世界时,能够利用多的数据,甚至是全部数据。这需要 我们采取非传统的方法,特别是要改变我们理想中构成有用信息的因素。我们"做新 、做多、做好、做快"的水平能释放出无限价值,产生新的赢家和输家。绝大部分的 信息价值来自于二级用途,即潜在价值,而不是我们所习惯认为的基本用途。结果, 对于绝大部分数据来说,尽可能多地收集、等待信息增值并且让其他适合挖掘价值 的人来分析它才是明智之举(前提是此人能够分享开发出的利润)。 大数据既是一种资源,也是一种工具。我们能收集和处理的数据仅仅世界上 极其微小的一部分。这些信息不过是现实的投影——柏拉图洞穴上的阴影罢了。因为我 们无法获得完美的信息,所以做出的预测本身就不可靠。但这不代表预测就一定是错 的,仅仅永远不能做到完善。这也并未否定大数据的判断,而仅仅让大数据发挥出了 应有的作用,大数据提供的不是最终答案,仅仅参考答案。为我们提供暂时的协助, 以便等待好的方法和答案出现。这也提醒我们在使用这个工具的时候,理应怀有谦 恭之心,铭记人性之本。 读书笔记2: 《7个习惯教出优秀学生》 【美】史蒂芬·柯维 肖恩·柯维 穆丽尔·萨默尔斯 戴维·哈奇 著 高效能人士的7个习惯: 习惯1:积极主动 我是一个有责任心的人。我积极主动。我能选择自己的行为、态度和情绪。我不会因为 自己错误的行为而责备他人。我能控制自己的怒火。 习惯2:以终为始 我会提前计划和设定目标。我只做有意义和带来改变的事情。我是班级的重要组成部分 ,我能够为学校的使命和未来贡献力量,我要力争成为一位好公民。 习惯3:要事第一 我会把时间花在那些最重要的事情上。也就是说,我觉得自己不应该做的事情,我 肯定不会去做。我会设定先后顺序、编排时间表并按计划执行。我既有组织性,又有纪 律性。 习惯4:双赢思维 我在追求自己想要的东西时,也会权衡考虑他人的需要。我会主动照顾他人的情感 需求。当发生冲突时,我会寻求双方都能接受的解决方案。 习惯5:知彼解己 我会倾听他人的想法和感受。我会试着从他们的立场看待问题。在倾听他人的诉说 时,我不会打断他们。我有信心大声发表自己的观点。交谈时我会看着对方的眼睛。 习惯6:统合综效 我重视他人的优点,并时刻准备向他们学习。我和别人相处融洽,不排斥异己,一 视同仁。我擅长团队合作。我会主动使用他人的想法来解决问题,因为我知道,相比单 打独斗,团队协作容易获得成功。我很谦虚。 习惯7:持续新 我会关爱自己的身体,吃健康食品,经常锻炼,保持充足睡眠。我会花时间与家人 和朋友待在一起。不止是在学校,我还能够利用多种方式在多个场合学习。我会花时间 去寻找有意义的方式去协助别人。 一位商界领袖的家长意识到了,学生们需要掌握那些能够让自己在未来成为最抢手 人才的技能和品质,于是分享了一份年度商业调查榜单,上面列出了雇主最为看重的品 质和技能,它们包括: 沟通水平(口头和书面) 诚实/正直 协作水平 人际交往水平 自我激励/主动性 强烈的职业道德 分析水平 技术水平 组织水平 创意水平 联合国教科文组织曾在90年代末期发布了一份名为《教育:财富蕴藏其中》的报告。 这份由15位世界教育专家起草的报告,推荐了21世纪教育工

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

肖永威

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值