老师让写大数据计算调研报告,费了半天劲,估计也没人看,拿出来与大家分享一下,希望与大家交流,欢迎批评指正,报告没写完,有些词纯属自造,忘谅解
大数据技术调研报告
一、大数据背景介绍
“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。大数据作为云计算、物联网之后IT行业又一大颠覆性的技术革命。云计算主要为数据资产提供了保管、访问的场所和渠道,而数据才是真正有价值的资产。企业内部的经营交易信息、互联网世界中的商品物流信息,互联网世界中的人与人交互信息、位置信息等,其数量将远远超越现有企业IT架构和基础设施的承载能力,实时性要求也将大大超越现有的计算能力。如何盘活这些数据资产,使其为国家治理、企业决策乃至个人生活服务,是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。
近年来“大数据”这个词成为了人们不得不谈的话题,但这个词太过于抽象,以至于人们似乎说不清这是谁先提出来的。有人说是谷歌团队,有人说是全球知名咨询公司麦肯锡,还有人说上世纪80年代就有未来学家和数据学家提出大数据这个概念了。
对于大数据的定义,人们同样有不同的看法。大部分人比较认可所谓4V的说法,也就是volume (数据的数量大), velocity (数据处理的速度要快), variety (数据的类型复杂) and Veracity(精确性),只要满足这4个特点的数据处理平台都算是大数据。有一部分人从数据宏观处理的角度来看,认为大数据是指任何形式的用传统的软件不能够在有限时间内很好的处理的数据,这个过程包括了获取,存储,共享,转换,分析,可视化等。有的人认为大数据主要是数据的管理,数据的分析,还有数据的可视化。还有些人认为,大数据就是数据罢了。
而对于大数据的态度,人们的分歧似乎更大。IT巨头和各大媒体,几乎都对大数据持赞的态度,他们声称,每天都会有大量的数据出现等等,如果使用大数据技术很好的利用这些数据,那么将能够帮助人们生活的更好。而于此恰恰相反的声音是,大数据只是个噱头,只是IT巨头吵出来的概念,以此来向客户销售产品,谋取利益;此外,大数据公司疯狂搜集人们信息也给社会道德等问题带了一定的挑战。
从计算机科学的角度来说,可以肯定的是,大数据并不是计算机技术层面的概念,查阅相关的文献我们会发现,计算机科学中关于大数据概念的论文少之又少,甚至可以说是没有,由此可知大数据并不是单单一门计算机的技术。个人理解,首先现在的数据确实比以前产生的要快很多,比以前的要多很多,但是大数据并不是在某一天开始剧增让人们开始担心数据太大的,或者某一技术出来之后才能够处理大数据的。所以对大数据的理解要结合具体的情况,每个人对“大”的概念不一样,那么对大数据理解也就不一样。大数据就是一个制约,如果你现在遇到了瓶颈,那么换种技术或者更新一下现有技术也许就能解决你的麻烦,没必要是目前流行的技术,能解决了这个瓶颈的就是大数据技术
综上所述,大数据并不是一个新的概念,数据自始至终都很大,人们一直都想处理大数据,也掌握了一定的处理大数据的技术,现今的大数据热只是这些技术的普及而已,就像手机开始热卖之前,人们已经掌握了无线通信的技术。
二、大数据应用现状与前景
1.大数据的成功应用案例
洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。
google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。
统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。
麻省理工学院利用手机定位数据和交通数据建立城市规划。
….....
2.我国大数据应用的状况
百度大数据引擎: 向外界提供大数据存储、分析及挖掘的技术能力
百度地图: 对其道路数据的更新中,率先采用了“大数据道路挖掘”技术,实现了地理 信息领域测绘技术的互联网革命,将对地图底层数据市场带来变局
百度无人汽车:汽车将在大量数据基础上进行实时定位分析,从而判断行驶方向和速度
腾讯大数据对当下流行的赛车、卡牌、射击、角色扮演、休闲、策略等六类主流手游付费用户的行为进行了分析
阿里巴巴对用户浏览记录进行分析并推送广告
华为推出大数据软硬件一体机
参考[1]中文献,按照信息处理的流程将大数据处理过程分为数据采集、数据清理、数据存储及管理、数据分析、数据显化,以及产业应用等六个环节。那么我国目前的大数据产业在这六个环节中的现状如下:
环节 |
现状 |
数据采集 |
Google、CISCO 这些传统的IT公司早已经开始部署数据收集的工作淘宝、腾讯、百度等公司已经收集并存储大量的用户习惯及用户消费行为数据。 |
数据清理 |
随着大数据产业分工的不断细化而需求越来越高的环节,除了Intel等老牌IT企业,Teradata、Informatica等专业的数据处理公司呈现了更大的活力。 |
数据存储及管理 |
厂商占位角度来分析,IBM、Oracle等老牌的数据存储提供商有明显的既有优势, 而 Apache Software Foundation等新生公司,以开源的战略汇集了行业专精的智慧, |