云计算与大数据技术应用 第二章

大数据技术概述

大数据技术的产生

大数据的基本概念

1、什么是大数据?大数据(Big data或Megadata):大数据,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间达到截取、管理、处理、并整理成为人类所能解读的形式的信息。大数据新手学习交流群,如果有想学习大数据或者交流经验的都可以加入,一起互相学习交流:→→→点击我即可加入圈子2、大数据特点①Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。②Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。③Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。④Velocity:数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。⑤Veracity:数据的准确性和可信赖度,即数据的质量。二、数据仓库1、什么是数据仓库?在计算中,数据仓库(DW或DWH)也称为企业数据仓库(EDW),是用于报告和数据分析的系统,被视为商业智能的核心组件。DWs从一个或多个不同源的综合数据的中央储存库。他们将当前和历史数据存储在一个地方,用于为整个企业的工作人员创建分析报告。2、数据仓库两种操作方式的特点①在线分析处理(OLAP)的特点是交易量相对较低。查询往往非常复杂,涉及到聚合。对于OLAP系统,响应时间是一种有效性度量。数据挖掘技术广泛使用OLAP应用程序。OLAP数据库以多维模式(通常为星型模式)存储汇总的历史数据。与数据集市相比,OLAP系统通常具有数小时的数据延迟,而数据集市预计延迟将接近一天。OLAP方法用于分析来自多个来源和视角的多维数据。OLAP中的三个基本操作是:总结(合并),钻取和切片和切块。②联机事务处理(OLTP)的特点是大量短暂的在线事务(INSERT,UPDATE,DELETE)。OLTP系统强调非常快速的查询处理并保持多访问环境中的数据完整性。对于OLTP系统,有效性以每秒交易次数来衡量。OLTP数据库包含详细和当前的数据。用于存储事务数据库的模式是实体模型(通常是3NF)。规范化是对在该系统中数据建模技术的规范。三、ETL与DM的区别ETL/Extraction-Transformation-Loading——用于完成DB到DW的数据转存,它将DB中的某一个时间点的状态,“抽取”出来,根据DW的存储模型要求,“转换”一下数据格式,然后再“加载”到DW的一个过程,这里需要强调的是,DB的模型是ER模型,遵从范式化设计原则,而DW的数据模型是雪花型结构或者星型结构,用的是面向主题,面向问题的设计思路,所以DB和DW的模型结构不同,需要进行转换。DM/Data Mining/数据挖掘——这个挖掘,不是简单的统计了,他是根据概率论的或者其他的统计学原理,将DW中的大数据量进行分析,找出我们不能直观发现的规律。四、Hadoop1、什么是Hadoop?维基百科上面,Hadoop的定义是:一个用java语言编写的便于大型数据集合的分布式储存和计算的软件框架。简单来说,这是计算机领域的一个开源软件,任何程序开发者都可以看到它的源代码,并且进行编译。它的出现让大数据的储存和处理一下子变的快了很多,也便宜了很多。2、Hadoop特点是什么?①高效率(Efficient):分布式云计算,采用标准x86架构服务器大规模集群实现,每个模块都是一个离散的处理单元,使用并行计算技术,及群内各计算节点负载均衡,当某节点负荷过高时,可智能的将负荷转移到其他节点,并支持节点线性平滑扩展;分布式云存储,采用x86服务器的本地硬盘实现,使用分布式文件系统,每份数据至少保存在3个节点,保证存储设计的性能和可靠性目标。②可靠性(Reliable):能搞自身的维护数据的多个成本,并且在任务失败是自动的重新部署计算任务③可扩容性(Scalable):能可靠的储存和处理PB级的数据④成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。

                  大数据产生的原因

进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的证券公司等写进了投资推荐报告。数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。最早提出大数据时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。大数据在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用G或T来衡量,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
产生大数据的的一个很重要的因素是芯片技术的提升,信息处理能力按照摩尔定理逐年加快,同时成本相对下降。芯片技术的提升导致数据存储成本的下降、信息传输速率的不断提升、计算能力的提升,缺了任何一项,大数据就很难生存。在这个过程中,互联网、移动互联网的普及的快速发展让大数据向我们快速走来。有了这些作为基础,各种传感器的出现,物联网的应用不断涌现,大数据将会越来越大。

大数据这个术语的出现大概可追溯到Apache的开源项目Nutch。当时,大数据——Big Data——是用来描述为更新网络搜索索引需同时进行批量处理或分析的大量数据集。随着MapReduce和Google File System(GFS)的发布,从2009年开始,大数据才开始成为互联网行业的流行词汇,也吸引了越来越多的关注。物联网、云计算、移动互联网、手机与平板电脑、PC以及遍布各个角落的各种各样的传感器,无一不是大数据的来源或承载方。可以说,大数据就在我们的身边——从阿里巴巴、1号店、京东商城等电子商务数据,到QQ、MSN等即时聊天内容,再到Google、Bing、百度,又到社会网络与微博数据等,都在生产、承载着大数据。随着大量的数据的产生也给数据处理和挖掘带来许多困难,信息处理量的增大(注:据统计,Facebook对某一主题进行搜索时,需在超过50TB的数据中迅速找出相关内容;在eBay存储了超过2PB的数据以备查询需要),很多传统方法(如RDBMS、SQL查询等)都不能直接应用在对海量数据的处理上,否则时间开销将会变得非常大。对大数据的挖掘与分析变得愈发重要。而通过对Google、百度、Bing、Facebook、网页文本、微博消息等的挖掘与分析,使人们的行为和情绪的细化测量成为可能。挖掘用户的行为习惯和喜好,从凌乱纷繁的大数据背后找到符合用户兴趣和习惯的产品和服务并对产品和服务进行有针对性地调整和优化,本身就蕴含着巨大的商机。北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。

                  大数据概念的提出

2014 年,马云提出,“人类正在从 IT 时代走向 DT 时代”。如果说在 IT 时代是以自我控制、自我管理为主,那么到了 DT(Data Technology) 时代,则是以服务大众、激发生产力为主。 在 DT 时代,人们比以往任何时候更能收集到更丰富的数据。数据正在变革我们的生活,催生了大数据行业的发展。百度百科中这样定义大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。这个新处理模式,就是大数据技术了。下图是我整理的主要大数据技术发展历程。在大数据时代,传统的软件已经无法处理和挖掘大量数据中的信息。最重要的变革着就是谷歌的“三架马车”。谷歌在 2004 年左右相继发布谷歌分布式文件系统 GFS、大数据分布式计算框架 Mapreduce、大数据 Nosql 数据库 BigTable ,这三篇论文奠定了大数据技术的基石。变革总是像谷歌那样的大公司主导的,在当时大部分公司还在致力于提高单机性能时,谷歌已经开始设想把数据存储、计算分给大量的廉价计算机去执行。受 Google 的论文启发,2004 年 7 月,Doug Cutting 和 Mike Cafarella 在 Nutch 中实现了类似 GFS 的功能,即后来 HDFS 的前身。后来 2005 年 2 月,Mike Cafarella在 Nutch 中实现了 MapReduce 的最初版本。到 2006 年 Hadoop 从 Nutch 中分离出来并启动独立项目。Hadoop 的开源推动了后来大数据产业的蓬勃发展,带了了一场深刻的技术革命。接下来,大数据相关技术不断发展,开源的做法让大数据生态逐渐形成。由于 Mapredece 编程繁琐,Facebook 贡献 Hive,sql 语法为数据分析、数据挖掘提供巨大帮助。第一个运营 Hadoop 的商业化公司 Cloudera 也在 2008 年成立。由于内存硬件已经突破成本限制,2014 年 Spark 逐渐替代 Mapreduce 的地位,受到业界追捧。Spark 在内存内运行程序的运算速度能做到比 Hadoop MapReduce 的运算速度快 100 倍,并且其运行方式适合机器学习任务。Spark 在 2009 年诞生于 UC Berkeley AMPLab, 2010 年开源,2013 年贡献到 Apache 基金会。Spark 和 Mapreduce 都专注于离线计算,通常时间是几十分钟甚至更长时间,为批处理程序。由于实时计算的需求,流式计算引擎开始出现,包括 Storm、Flink、Spark Streaming。大数据存储和处理技术的发展同时也带动了数据分析、机器学习的蓬勃发展,也促使了新兴产业的不断涌现。大数据技术是基石,人工智能的落地是下一个的风口。身处在互联网行业中,感觉到技术进步很快,要略去浮躁,把握住变革的到来。摘录一个总结: 1.论文奠定技术发展基石; 2.业务催生技术不断突破; 3.效率倒逼技术迭代更新
在这里插入图片描述
大数据这一术语产生于全球数据爆炸增长的背景下,用来形容庞大的数据集合。而大数据时代的到来标志着一场深刻的革命,这似乎才是信息化发展的“第三次浪潮”。其来势之迅猛,对经济社会及人们的生产生活影响之巨大、之深刻,是难以估量的。信息正以生产资料要素的身份参与到生产之中,其表现形式就是信息数据的资源化和人们行为的数据化,大到数字政府、数字经济、数字社会,小到数字城市、数字交通、数字环保等都应运而生。数据资源这种取之不尽、用之不竭并在无限循环中的交互作用,使其价值难以估量。虽然,我国大数据发展起步较晚,但发展速度却非常快。国家对大数据十分重视,明确提出要“实施国家大数据战略,推进数据资源开放共享”。大数据已成为时代的潮流,历史的必然。在新中国成立70周年之际,我们回顾过去,聚焦大数据这一新兴技术的发展。为大家呈现大数据在我国发展的一些脉络;同时展望未来,迎接新一轮科技革命的机遇与挑战。

作者:数据
链接:https://zhuanlan.zhihu.com/p/254907113
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

大数据战略作为‘十三五’期间的十四大国家战略之一,是中国经济发展新的驱动力。大数据通过提供全样本分析手段,使得很多不可能变成可能,在各个行业领域都已经产生了重要影响,大数据的魅力无处不在。今天的文章,我就从大数据的发展历史、特点、现状和典型案例等角度,对大数据技术进行一下综合介绍。(1)大数据的发展历程随着计算机和网络的发展,信息不断“爆炸”:1970s: 超大规模数据库 (VLDB)【GB=10^9字节】21世纪初:海量数据(massive data)【TB=10^12字节】2008年:Big data 【PB=1015字节】现在实际的数据量已经达到:ZB=103EB=106PB=1021字节一个新单位:1YB=103ZB=1024字节2008年9月4日,《自然》(Nature)刊登了一个名为“Big Data”的专辑。2011年5月,美国著名咨询公司麦肯锡(McKinsey)发布《大数据:创新、竞争和生产力的下一个前沿》的报告,首次提出了“大数据”概念,认为数据已经成为经济社会发展的重要推动力。大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。2013年3月29日,美国奥巴马政府宣布推出“大数据研究和发展计划”(Big Data Resear

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值