关于《大数据时代》

这两天抽时间又翻了翻《大数据时代》(Big Data:A Revolution That Will Transform What We Live,Work and Think),书中讲到很多大数据应用的例子仍然让我觉得很新奇,而其中关于大数据时代的思维方式的转变尤其值得认真思考。

  • 在未来,随着人类计算能力的增强,小样本的采样分析方法会渐渐被利用全体样本(样本总体)进行分析的方法所替代。对于一个问题而言,我们希望得到的是所有的数据,即“样本=总体”;
  • 以往,在处理数据的过程中,精确性是一个重要的标准,而如今,随着非结构化数据的大量涌现(95%以上的数据为非结构化数据),我们不再苛求数据的精确性而是学会接受存在其中的“混杂”,尽可能让多而丰富的数据参与到解决问题的过程中来,而这也使我们可以接受数据中存在的少量错误;
  • 随着可利用的数据增多,未来我们不再纠结于事情的“为什么”而是更多的关注事情是“什么”。在大数据时代,我们没有必要知道一个现象背后发生的具体原因,而是选择让数据自己“说话”,找出其中存在的相关关系;
  • 一切皆可“量化”。书面的文字可以量化,位置信息也可以量化,人与人之间的交流沟通也可以量化。。。,一切都可以成为数据与信息的来源,都可以成为改善人类生活的一部分;
  • 大数据可能带来的一系列关于人的隐私与权力、数据垄断以及人的自由意志等问题同样需要我们仔细的考量。
仅仅有大数据的思维观念可能还不够,书中所讲到的那些大数据的应用实例也不得不让人觉得兴奋:只要敢于实践,你我都可以成为大数据时代的弄潮儿。为学习思考之用,特地将书中的例子加以归纳总结,也方便今后做些扩展,同时欢迎大家把已经实现的应用实例贴出来交流学习。
  • 目前,应用较为广泛的例子是互联网公司利用数据来改善服务,提高收益。例如,亚马逊、淘宝等网购平台利用用户的购物行为以及搜索查询的关键词来进行产品的推荐;Twitter、Facebook和LinkedIn可以通过用户的社交网络图谱得到其个人的喜好;Google利用大量用户的搜索数据来做语言的翻译(机器翻译)和语音的识别,也可用于文本的纠错和拼写检查;
  • 2009年,Google公司利用人们在网络上的上千万的搜索记录,找到了搜索关键词与甲型H1N1流感之间的关系。他们最终得到的模型预测得到的结果与美国疾控中心数据的相关性高达97%,参考文献见:Google发表的研究论文Google Flutrends
  • 利用大数据建立一个预测系统,用于预测当前的机票价格在未来一段时间的升降趋势。这样的预测系统也可以用于其他诸如家电、手机、二手房购买等服务领域;
  • 量化投资领域:利用构建在数学模型与算法基础之上的计算机程序进行股票交易以及投资管理,例如一些对冲基金公司利用社交网络上的数据信息来预测股市行情;
  • 银行金融机构可以利用大数据来对用户进行信用评级,发现潜在的信用卡欺诈以及金融诈骗;
  • Google通过扫描成千上万的书籍,将原有的纸质文本转换成数字化的图像,利用光学字符识别软件可以识别图像中的字、词、句和段落。基于这样一个巨大的文本数据库,例如用来鉴定一个作者的作品风格,从而有可能辨别出文章可能存在的抄袭行为;利用巨大的文本数据库,研究人员可以通过对其进行定量的分析来揭示人类行为和文化的发展趋势(以前木有听说过!);
  • 利用地理位置数据和交通历史数据,快递公司可以实现车辆的行车路径优化,同样也可以用来预测交通状况,借此缓解城市的交通压力;
未来,大数据无疑是一个充满了无尽想象力的领域,不仅仅是在商业,教育、医疗、交通等各个领域内大数据都可以找到自己的用武之地。我们不妨去大胆设想:有一天,计算机也许可以写出一本小说来;计算机也可以为人类提供真正个性化的教育--因材施教不再是个传说。

参考文献:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值