Hadoop学习总结（1）——大数据以及Hadoop相关概念介绍

最新推荐文章于 2023-03-11 20:20:21 发布

weixin_34413802

最新推荐文章于 2023-03-11 20:20:21 发布

阅读量153

点赞数

文章标签：人工智能数据库 python

原文链接：https://my.oschina.net/zhanghaiyang/blog/606657

版权

2019独角兽企业重金招聘Python工程师标准>>>

一、大数据的基本概念

1.1、什么是大数据

　　大数据指的就是要处理的数据是TB级别以上的数据。大数据是以TB级别起步的。在计算机当中，存放到硬盘上面的文件都会占用一定的存储空间，例如：

　　文件占用的存储空间代表的就是该文件的大小，在计算机当中，文件的大小可以采用以下单位来表示，各个单位之间的转换关系如下：

　　平时我们在我们自己的电脑上面常见的就是Byte、KB、MB、GB这几种，那么究竟什么是大数据呢，大数据的起步是以TB级别开始的，1TB=1024GB，而我们处理的数据可能会到达PB级别，1PB=1024TB，那可想而知，数据量是多么庞大，所以大数据指的就是要处理的数据是TB级别以上的数据。而对于这些TB级别以上的数据，一般情况下，一台计算机的硬盘存储空间是无法存储那么大的数据，我们现在的普通电脑一般都是一块硬盘，而硬盘容量一般都是500GB左右，有的是1TB，假设现在有1PB的数据要存储，我们给每一台计算机配置10块硬盘，每一块硬盘都是1T的存储容量，那么也得要使用100多台电脑才能够存储得下1PB的数据。所以说，当我们的数据规模达到一定的程度的时候，我们以往的一些问题的解决办法在这种场景下已经变得不适用了。

1.2、大数据的特征

　　大数据，顾名思义，第一个特征就是数据量大，需要非常大的存储空间进行存储，而如果要处理这些海量的数据，那么计算量可想而知，所以计算量非常庞大。而这些数据的来源往往也是多样化的，数据的格式也是多样化的，在我们平时的应用系统开发中，我们要处理的数据来源大多数是存储在数据库中的数据又或者是存储在文件当中，而在大数据时代，我们一个系统要处理的数据来源是多种多样的，这些数据的来源可能是来自数据库，也可能是来自一些监控采集数据，或者是一些科研数据，而数据的格式可能有普通文本，图片、视频、音频、结构化的，非结构化的等等，反正什么样的数据都有。在大数据时代，数据的增长速度是非常快的，例如我们每天打电话，发短信，我们打出去的电话和发出去的短信在移动和联通公司都会有相应的记录，而这样的数据每天都会产生几亿条，数据量的增长速度可想而知，因此要求处理数据的应用系统的处理速度也要快，当我们想展示一些数据给用户看时，如果应用系统的处理速度不够快，那么给用户的体验是非常差的。另外，在大数据领域，我们从海里数据中能够提取到的相对有价值的数据也是非常有限的，我们处理几十个T的数据，从这些数据当中能够提取出来的有价值的信息也是非常少的，大数据分析要想得到一些有价值的结果，那么要求数据要比较全。比如，我们想分析一个用户的购物习惯，她平时喜欢在京东和天猫、淘宝这些电子商务网站上面进行购物，我们分析她在京东商城上面的购物行为时，我们不光要分析她最近一次的购买行为，还要分析她很长一段时间内的历史购买行为，以及在其他电商网站的购买行为，如果我们真的想一体地分析用户的生活习惯，那么不光是要分析她的购物行为，还要分析她的社交行为，比如在一些社交网站上面平时和哪些人联系最多，平时喜欢讨论一些什么话题，从事的职业，年龄，性别等，拿到的数据越全，我们分析的结果就会越准确，所以大数据不光是要求数据量要大，更重要要的是数据要全面，要多维度的，这样我们提取到的数据才是比较有价值，比较准确的。大数据处理领域在价值这一块是稀疏型的，从海量数据当中能够提取到的有价值的数据是非常稀少的。

1.3、存在有大数据的行业

　　放眼观世界，现在各行各业每天都会产生大量的数据，21世纪是一个互联网时代，一个信息化的时代，我们这一代人都不可避免地在一些IT系统当中留下我们的脚印，存在有大数据的典型的行业有以下几个行业：

　　互联网企业是最早收集大数据的行业，最典型的代表就是Google和百度，这两个公司是做搜索引擎的，数量都非常庞大，每天都要去把互联网上的各种各样的网页信息抓取下来存储到本地，然后进行分析，处理，当用户想通过搜索引擎搜索一些他们关心的信息时，Google和百度就从海量的数据当中提取出相对于对用户而言是有用的信息，然后将提取到的结果反馈给用户，据说Google存储的数据量已经到达了上百个PB，这个数据量是非常惊人的。类似于Fackbook这样的SNS(社交网站)因为用户量比较多，用户每天在网站上面分享一些文章，图片，视频，音频等信息，因此每天产生的数据量也是非常庞大的。

二、大数据技术要解决的技术难题

2.1、海量数据如何存储？

　　海量数据的存储问题也不是今天才有的，很早以前就出现了，一些行业或者部门因为历史的积累，数据量也达到了一定的级别，当一台电脑无法存储这么庞大的数据时，采用的解决方案是使用NFS(网络文件系统)将数据分开存储，NFS系统的架构如下图所示：

　　NFS这种解决方案就是同时架设多台文件服务器，如下图所示：

　　然后在文件服务器上面设置共享目录，例如图中显示的【D:\software、E:\aa\bb、F:\dd\cc、E:\images】

　　这样我们就可以把文件分类存放到各个文件服务器上面的共享目录当中，一台电脑的存储空间不够用，那么我们就将数据分散到多台电脑进行存储，而这些文件服务器上面的共享目录对于用户来说是透明的，用户会以为自己存放数据的【Software、Tools、film、music】这些目录都是属于【Itdc.com.local】这台文件服务器里面的【public】目录下的子目录，在NFS系统中，【Itdc.com.local】这台文件服务器只是起到一个中转站作用，将用户需要存放的海量数据分类存放到各个文件系统当中，这就解决了大数据的存储问题了。当用户需要访问分散在各个文件服务器中的文件资源时，它只需要访问【Itdc.com.local】这台文件服务器就可以了。

　　NFS虽然是解决了海量数据的存储问题，但是在大数据背景下，这种存储方案是不适用的，大数据不光是要解决数据存储问题，更重要的是海量数据的分析，而NFS在海量数据分析方面不能够充分利用多台计算机同时进行分析。