大数据成果(发展和未来)

/世界就是数据/
以云计算为基础的信息存储、分享和挖掘手段,可以便宜、有效地将这些大量、高速、 多变化的终端数据存储下来,并随时进行分析与计算。大数据与云计算是一个问题的两面:一 个是问题,一个是解决问题的方法。通过云计算对大数据进行分析、预测,会使得决策更为精 准,释放出更多数据的隐藏价值。数据,这个21世纪人类探索的新边疆,正在被云计算发现、 征服。
大数据处理手段云计算
“不再追求 精确度,不再追求因果关系,而是承认混杂性,探索相关关系”,“思维转变过来,数据就能被 巧妙地用来激发新产品和新型服务”。数据正成为巨大的经济资产,成为新世纪的矿产与石油, 将带来全新的创业方向、商业模式和投资机会。
大数据探索研究相关关系
探索以大数据为基础的解决方案,是中国产业升级、 效率提高的重要手段。数据挖掘不仅能够成为公司竞争力的来源,也将成为国家竞争力的一部 分。联系到我国现代化所面临的种种问题以及教育、交通、医疗保健等各方面挑战,通过大数 据这种创新方式来解决问题,创建新的产业群,实现“中国制造到中国创造”的改变,意义就更 大。
大数据挖掘新型的服务和市场关系,投资方向
“大数据”发展的障碍,在于数据的“流动性”和“可获取性”。美国政府创建了Data.gov网站, 为大数据敞开了大门;英国、印度也有“数据公开”运动。中国要赶上这样一场大数据变革,各 界应该首先开始尝试公开数据、方式与方法。如同工业革命要开放物质交易、流通一样,开 放、流通的数据是时代趋势的要求。《大数据时代》一书也提到了数据拥有权、隐私性保护等 问题,但相比较来看,新科技可能带来的改变要远远大于其存在的问题。
数据公开运动,

他不仅做研究,也关注着研 究成果的商业化及传播。

只要发现了两个 现象之间存在的显著相关性,就可以创造巨大的经济或社会效益,而弄清二者为什么相关可以 留待学者们慢慢研究。大数据之所以可能成为一个“时代”,在很大程度上是因为这是一个可以 由社会各界广泛参与,八面出击,处处结果的社会运动,而不仅仅是少数专家学者的研究对 象。

我本人对于大数据时代“相关关系比因果关系更重要”这个观点就不认同。有了机器学 习,特别是集成学习,我们解决问题的方式变成了训练所有可能的模型和拟合所有可能的参数 ——问题从一个端口进去,答案从另一个端口出来,中间则是一个黑匣子,因为没有人能够从 成千上万的参数拟合值里面读到“科学”,我们读到的只是“计算机工程”。与其说大数据让我们重 视相关胜于因果,不如说机器学习和以结果为导向的研究思路让我们变成这样。
机器学习,机器训练模型和参数

模拟数据也称为模拟量,相对于数字量而言,指的是取值范围是连续的变量或者数值, 例如声音、图像、温度、压力等。模拟数据一般采用模拟信号,例如用一系列连续变化的电磁
波或电压信号来表示。——译者注 [6] 数字数据也称为数字量,相对于模拟量而言,指的是取值范围是离散的变量或者数值。 数字数据则采用数字信号,例如用一系列断续变化的电压脉冲(如用恒定的正电压表示二进制 数1,用恒定的负电压表示二进制数0)或光脉冲来表示

大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种 机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反,它是把数 学算法运用到海量的数据上来预测事情发生的可能性。

亚马逊可以帮我们推荐想要的书,谷歌可以为关联网站排序,Facebook知道我们的喜好,而 LinkedIn可以猜出我们认识谁。[2]当然,同样的技术也可以运用到疾病诊断、推荐治疗措施,甚 至是识别潜在犯罪分子上。

系统可以通过一种“反馈学习”的机制,利用自己产生的数据判断自身算法和参数选择的 有效性,并实时进行调整,持续改进自身的表现

。但是采样分析是信息缺乏时代和信息流通 受限制的模拟数据时代的产物。以前我们通常把这看成是理所当然的限制,但高性能数字技术 的流行让我们意识到,这其实是一种人为的限制。与局限在小数据范围相比,使用一切数据为 我们带来了更高的精确性,也让我们看到了一些以前无法发现的细节——大数据让我们更清楚 地看到了样本无法揭示的细节信息。

,对冲基金通过剖析社交网络Twitter上的数据信息来预测股市的表现;亚马逊和奈飞 (Netflix)[1]根据用户在其网站上的类似查询来进行产品推荐;Twitter,Facebook和LinkedIn通过 用户的社交网络图来得知用户的喜好。

farecast机票预测,谷歌搜索预测甲流

如今,一个新的转变正在进行,那 就是电脑存储和分析数据的方法取代电脑硬件成为了价值的源泉。数据成为了有价值的公司资 产、重要的经济投入和新型商业模式的基石。虽然数据还没有被列入企业的资产负债表,但这 只是一个时间问题。

。把各种各样的现实转化为数据,对今天的我们而言也许是新奇而 有趣的,但在不久的将来,这将变成如同吃饭睡觉一样与生俱来的能力——这又让我想起了“数 据”这个词语的拉丁语原意。


虽然有些数据处理技术已经出现了一段时间,但是它们只为调查局、研究所和世界上的一 些巨头公司所掌握。沃尔玛和美国第一资本银行(CapitalOne)率先将大数据运用在了零售业和 银行业,因此改变了整个行业。如今这些技术大多都实现了大众化。
,数字化带来了数据化,但是数 数字化带来了数据化,但是数 字化无法取代数据化
谷歌机器翻译
UPS定位最佳行车路径
USP汽车修理预测
沃尔玛蛋挞与飓风
塔吉特怀孕预测
沙井盖电网爆炸预测
海军莫里航海图绘制
越水重臣汽车坐姿研究和汽车防盗
美国人口普查变革的抽样调查方法
第谷模拟信息的记录和行星三大定律的价值挖掘
IBM触感技术先导地板的身份确认
麦格雷戈博士用婴儿的生命体征 来预测传染病的发生;
通过记录和分析北京市出租车两年的GPS数据,微软亚洲研究院的谢幸及其同事可以向 司机提供不同时段的最佳出行路线
FlyOnTime的航班时间预测
四大机票预订系统之一的ITA Software[1]就为Farecast提供预测机票价格所需要的数据,而它 自身并不进行这种数据分析
VISA&MasterCard与商户推荐
微软用来分析病患再入住率的Amalga系统曾经就是华盛顿中心医院自己的内部 急症室软件Azyxxi,这是医院在2006年卖给微软公司的,因为考虑到微软更有能力把这个软件做 好和挖掘出这些数据的潜在价值。
弗劳尔火灾防空系统


数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则 数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则 隐藏在表面之下
很多互联网和科技公司甚至直到最近才知道数据再利用具有多大的价值。要解锁这些数 据价值,就必须通过新一代统计人员的不懈努力并借助新一代的方法和工具
不要忽视数据存储和收集工作
看看移动运营商吧:他 们记录了人们的手机在何时何地连接基站的信息,包括信号的强度。运营商们长期使用这些数 据来微调其网络的性能,决定哪里需要添加或者升级基础设施。但这些数据还有很多其他潜在 的用途,比如手机制造商可以用它来了解影响信号强度的因素,以改善手机的接收质量。一直 以来,处于隐私保护相关法律的限制,移动运营商们并没有用这些数据来谋取利益。但如今, 伴随着经济颓势,它们开始逐渐改变立场,认为数据也可以作为其利润的潜在来源。2012年, 西班牙电话公司(Telefónica of Spain),一家国际电讯公司,甚至创立了独立公司Telefonica Digital Insights来向零售商和其他买家出售其收集到的匿名用户位置信息
有些零售商在店内安装了监控摄像头,这样不仅能认出商店扒手,还能跟踪 在商店里购物的客户流和他们停留的位置。零售商利用后面的信息可以设计店面的最佳布局并 判断营销活动的有效性。在此之前,监控摄像机仅用于安全保卫,是一项纯粹的成本支出,而 现在却被视为一项可以增加收入的投资。
上网的过程也是在不断训练搜索引擎的过程  数据废气是许多电脑化服务背后的机制,如语音识别、垃圾邮件过滤、翻译等。当用户指 出语音识别程序误解了他们的意思时,他们实际上有效地“训练”了这个系统,让它变得更好
,但事实上,政府才是大规 模信息的原始采集者,并且还在与私营企业竞争他们所控制的大量数据。政府与私营企业数据 持有人之间的主要区别就是,政府可以强迫人们为他们提供信息,而不必加以说服或支付报 酬。因此,政府将继续收集和积累大量的数据。
FlyOnTime的航班时间预测
冰岛成立的DataMarket
有趣的是,数据拥有者就做不到这样的事情。因为数据拥有者没有这样使用数据的动机和 强制要求。事实上,如果美国运输统计局、美国联邦航空局和美国天气服务这些数据拥有者敢 将航班晚点预测用作商业用途的话,国会可能就会举办听证会并否决这个提议。所以使用数据 的任务就落到了一群不羁的数学才子的身上。同样,航空公司不可以这么做,也不会这么做, 因为这些数据所表达的信息越隐蔽对它们就越有利。FlightCaster的预测是如此的准确,就连航 空公司的职员也开始使用它了。但是需要注意的一点就是,虽然航空公司是信息的源头,但是 不到最后一秒它是不会公布航班晚点的,所以它的信息是不及时的。
,Inrix收集的交通状况数据信息会比表面看上去有用得多,
它们认为如果 车辆的自动制动系统在某段路上老是启动的话,就说明这段路比较危险,应该考虑更换路径。
认为数据自身而不是技术和思维更值钱的想法,在大数据时代的多笔商业交易中都有所体 现。2006年,微软以1.1亿美元的价格购买了埃齐奥尼的大数据公司Farecast。而两年后,谷歌以 7亿美元的价格购买了为Farecast提供数据的ITA Software公司。
很多其他球 队也开始争相采用“赛伯计量学”来指导球队运作。

一个英国物理学家设计了一个算法系统来预测保险索赔和发现二手车的质量问题,这个系 统差点就获胜了;还有一个新加坡的精算师在一个预测人体对化合物的生理反应项目中取得了 胜利;同时,在谷歌的机器翻译团队中,这些工程师们都不会说他们翻译出的语言;类似的还 有,微软机器翻译部门的统计学家们在茶余饭后的谈资就是说每次一有语言学家离开他们团 队,翻译的质量就会变好一点。

数学和统计学知识,甚至是有少许编程和网络科学的知识将会成为现代工厂的基础,一如 百年前的计算能力或者更早之前的文学。人类的价值将不再体现在与思维类似的同行的交际 上,而体现在与各行各业的人的交际上,因为这样知识就能广泛而深刻地进行传播。过去,要 成为一个优秀的生物学家就需要认识很多生物学家,这并没有完全改变。但是如今,不只是专 业技能的深度很重要,大数据的广度也变得很重要。要想解决一个生物难题,或许与天体物理 学家或者数据视图设计师联系就可以实现。

The-Numbers.com与电影票房预测

大数据向小数据时代的赢家以及那些线下大公司(如沃尔玛、联邦快递、宝洁公司、雀巢 公司、波音公司)提出了挑战,后者必须意识到大数据的威力然后有策略地收集和使用数据。 同时,科技创业公司和新兴行业中的老牌企业也准备收集大量的数据。

大数据也为小公司带来了机遇。用埃里克教授的话说就是,聪明而灵活的小公司能享受到 非固有资产规模带来的好处。这也就是说,它们可能没有很多的固有资产但是存在感非常强, 也可以低成本地传播它们的创新成果。重要的是,因为最好的大数据服务都是以创新思维为基 础的,所以它们不一定需要大量的原始资本投入。数据可以授权但是不能被占有,数据分析能 在云处理平台上快速而且低成本地进行,而授权费用则应从数据带来的利益中抽取一小部分。

其余三个是Amadeus,Travelport and Sabre

我们时刻都暴露在“第三只眼”之下:亚马逊监视着我们的购物习惯,谷歌监视着我们的网 页浏览习惯,而微博似乎什么都知道,不仅窃听到了我们心中的“TA”,还有我们的社交关系 网。

大数据还会带来更多的威胁,毕竟,大数据的核心思想就是用规模剧增 大数据还会带来更多的威胁,毕竟,大数据的核心思想就是用规模剧增 来改变现状。 来改变现状。

除了对隐私和倾向的不良影响,大数据还有一个弊端。我们冒险把罪犯的定罪权放在了数 据手中,借以表达我们对数据和我们的分析结果的崇尚,但是这实际上是一种滥用。应用得 当,大数据会是我们合理决策过程中的有力武器;倘若运用不当,它就可能会变成权贵用来镇 压民众的工具,轻则伤害顾客和员工的利益,重则损害公民的人身安全。我们所冒的风险比想 象中还要大。如果在隐私和预测方面对大数据管理不当,或者出现数据分析错误,会导致的不 良后果比定制化的在线广告要严重得多。

,所以能源使用情 况就能暴露诸如一个人的日常习惯、医疗条件和非法行为这样的个人信息。

在大数据时代,不管是告知与许可、模糊化还是匿名化,这三大隐私保护策略都失效了。
如今很多用户都觉得自己的隐私已经受到了威胁,当大数据变得更为普遍的时候,情况将更加 不堪设想。

。美国国土安全部正在研发 一套名为未来行为检测科技(Future Attribute Screening Technology,简称FAST)的安全系统,通 过监控个人的生命体征、肢体语言和其他生理模式,发现潜在的恐怖分子。研究者认为,通过 监控人类的行为可以发现他们的不良意图。美国国土安全部声称,在研究测试中,系统检测的 准确度可以达到70%。(测试方法并不可知,难道是要志愿者假扮恐怖分子,然后看看系统是 否能发现他们的不良意图吗?)尽管这些研究还处于早期阶段,执法者和监管部门还是对其给 予了高度重视。

当然,精准的预测是不现实的。大数据分析只能预测一个人未来很有可能进行的行为。
比方说,宾夕法尼亚大学教授理查德·伯克(Richard Berk)建立了一个大数据模型,他声称 这个模型可以预测一个判缓刑或者假释的人一旦提前释放会不会再次杀人。他输入了海量的特 定案件变量,包括监禁的原因、首次犯罪的时间、年龄、性别等个人数据。伯克说他的模型对 未来行为预测的准确率可以达到75%。这听起来似乎还不错。但是,这也意味着如果假释委员 会依靠他的分析,就会在每4个人中出现一次失误。

大数据有利于我们理解现在和预见未来的风险,如此一来,我们就可以相对应地采取应对 措施。大数据预测可以帮助患者、保险公司、银行和顾客,但是大数据不能告诉我们因果关 系。相对地,进行个人罪责推定需要行为人选择某种特定的行为,他的选择是造成这个行为的 原因。但大数据并不是建立在因果关系基础上的,所以它完全不应该用来帮助我们进行个人罪 责推定。

大数据大大地威胁到了我们的隐私和自由,这都是大数据带来的新威胁。但是与此同时, 它也加剧了一个旧威胁:过于依赖数据,而数据远远没有我们所想的那么可靠。要揭示大数据 分析的不可靠性,恐怕没有比罗伯特·麦克纳马拉(Robert McNamara)的例子更贴切的了

蒙台梭利教育。
其实,卓越的才华并不依赖于数据。

管理变革 管理变革1:个人隐私保护,从个人许可到让数据使用者承担责任
管理变革 管理变革2:个人动因 :个人动因VS预测分析
 管理变革3:击碎黑盒子,大数据算法师的崛起 :
管理变革 管理变革4:反数据垄断大亨

大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数 据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久 的未来。
大数据将成为理解和解决当今许多紧迫的全球问题所不可或缺的重要工具。例如要应对气 候变化问题时,需要对污染相关数据进行分析,得出最佳方案,来指导努力方向,找出缓解问 题的方法。全球范围内遍布的大量传感设备,包括智能手机内部的传感器,使我们能够以更高 的细节水平模拟环境。而世界贫困人口迫切需要提高医疗保健服务,降低医疗费用,这很大程度 上可以靠自动化来实现。当下许多似乎需要人类判断才能进行的事情,其实完全可以交由电脑 来做,比如癌细胞活检、传染病爆发前期的模式预测等。
大数据也被用于发展经济和理解如何预防冲突。基于手机动向数据显示,非洲许多贫民窟 地区经济活动十分活跃。大数据还揭示了最可能引发种族关系紧张的社区以及解除难民危机的 方式。只有当科技应用至生活的方方面面时,大数据的使用范围才能进一步扩大。
大数据能帮助我们更好地进行已有的工作,并处理全新的事务。但它绝不是魔术棒,不会 带来世界和平,无法根绝贫穷问题,更不能创造出另一个毕加索。大数据不能造婴儿,虽然它 确实可以救助早产儿。不要多久,我们将在生活的各个方面使用到大数据,如果不用的话还可 能会引起些许焦虑,这种情况就像普通体检查不出问题时,会希望有医生帮我们预约X光进行检 查。

其实,事实很有可能是相反的。知道行为在未来如何谢幕,我们便可以采取补救措施,避 免问题发生并改善结局。我们能在期末考试之前早早发现有退步趋势的学生。我们能检测到微 小的癌变,赶在疾病完全爆发前根治。我们能看到青春期意外妊娠的可能性,或是预测到某种 犯罪生涯,然后尽力干预,避免出现可能的悲剧结局。例如拥挤的纽约住宅着火的时候,如果 能事先知道并从几间最可能是火源的公寓着手,将会免除一场致命的火灾。

大数据并不是一个充斥着运算法则和机器的冰冷世界,其中仍需要人类扮演重要角色。人 类独有的弱点、错觉、错误都是十分必要的,因为这些特性的另一头牵着的是人类的创造力、 直觉和天赋。偶尔也会带来屈辱或固执的同样混乱的大脑运作,也能带来成功,或在偶然间促 成我们的伟大。这提示我们应该乐于接受类似的不准确,因为不准确正是我们之所以为人的特 征之一。就好像我们学习处理混乱数据一样,因为这些数据服务的是更加广大的目标。毕竟混 乱构成了世界的本质,也构成了人脑的本质,而无论是世界的混乱还是人脑的混乱,学会接受 和应用它们才能得益。


/廉价和强大的计算机存储和运算能力是大数据发展和存储处理的基础(存储和收集),数据化每个人的生活状态和行为是大数据的产生来源(产生),数据算法师解决了大数据的处理手段,大数据有噪声但是采用整体为样本空间容错率更高,大数据会过时因为数据产生来源于人而人的需求不断变化所以保持数据更新,大数据追求数据相关关系而非因果关系,大数据变革影响生活和价值观,提供新的市场服务和商业机会///
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值