大数据技术与实践

最新推荐文章于 2020-12-22 11:55:21 发布

qq_41837608

最新推荐文章于 2020-12-22 11:55:21 发布

阅读量886

点赞数

本文链接：https://blog.csdn.net/qq_41837608/article/details/103377953

版权

大数据技术与实践

11.1 大数据概述

11.1.1 大数据产生的背景

大数据（big data），IT行业术语，是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样捷径，而采用所有数据进行分析处理。

11.1.2 大数据的定义

对于“大数据”（Big data）研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换而言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。
从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
随着云时代的来临，大数据（Big data）也吸引了越来越多的关注。分析师团队认为，大数据（Big data）通常用来形容一个公司创造的大量非结构化数据和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理（MPP）数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

11.1.3 大数据产生的4V特征

大数据的5V特点（IBM提出）：Volume（大量）、Variety（多样）、Velocity（高速）、Value（低价值密度）。
第一个特征Volume是大数据的首要特征，数据体量巨大。当今世界需要进行及时处理以提取有用信息的数据数量级已经从TB级别，跃升到PB甚至EB级别。

第二个特征Variety：数据类型繁多。大数据的挑战不仅是数据量的大，也体现在数据类型的多样化。除了前文提到的网络日志、地理位置信息等具有固定结构的数据之外，还有视频、图片等非结构化数据。

第三个特征Velocity：处理速度快。信息的价值在于及时，超过特定时限的信息就失去了使用的价值。

最后一个特征是Value：商业价值高，但是价值密度低。单个数据的价值很低，只有大量数据聚合起来处理才能借助历史数据预测未来走势，体现出大数据计算的价值所在。

11.2 大数据存储平台

11.2.1 HDFS

1、 HDFS简介
HDFS（全称Hadoop Distributed File System）原是Apache开源项目Nutch的组件，现在成为是Hadoop的重要组件，它是一款具有高容错性特点的分布式文件系统，它被设计为可以部署在造价低廉的主机集群上。它将一个大文件拆分成固定大小的小数据块，分别存储在集群的各个节点上。因此HDFS可以存储超大的数据集和单个巨大的文件。这样的分布式结构能够进行不同节点的并行读取，提高了系统的吞吐率。同一个数据块存储在不同的数据节点上，保证了HDFS在节点失败时还能继续提供服务，使其具有了容错性。

2、HDFS体系结构
在这里插入图片描述
3、HDFS副本放置策略
HDFS副本放置策略对于HDFS可靠性和性能至关重要。副本放置策略关系到数据的可靠性、可用性和网络带宽的利用率。对于副本放置策略的优化让HDFS在分布式文件系统中脱颖而出，这一调优是需要大量实践经验作为依托的。
HDFS采用基于机架感知的副本放置策略，将副本存放在不同的机架上，即第一个副本放在客户本地节点上，另外两个副本随机放置在远程机架上，这样可以防止当某个机架失效时数据的丢失，如图12-2所示。在一个数据中心中往往不只有一个机架，对于大部分数据中心来说，不同机架上节点之间的通信需要经过多个交换机，其带宽比相同机架节点之间的通信带宽要小。因此，基于机架感知的副本放置策略可以在网络带宽和数据可靠性之间取得平衡。
在这里插入图片描述

11.2.2 HBase

1、HBase简介
Apache HBase是运行于Hadoop平台上的数据库，它是可扩展的、分布式的大数据储存系统。HBase可以对大数据进行随机而实时的读取和写入操作。它的目标是在普通的机器集群中处理巨大的数据表，数据表的行数和列数都可以达到百万级别。受到Google Bigtable 思想启发，Apache开发出HBase, HBase是一个开源的、分布式的、数据多版本储存的、面向列的大数据储存平台。Google的Bigtable是运行于GFS（Google File System）上的，而HBase是运行与Apache开发的Hadoop平台上。

2、HBase的特性
1）线性和模块化的扩展性；
2）严格的读写一致性；
3）自动且可配置的数据表

最低0.47元/天解锁文章

qq_41837608

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据技术与实践

大数据技术与实践11.1 大数据概述11.1.1 大数据产生的背景11.1.2 大数据的定义11.1.3 大数据产生的4V特征11.2 大数据存储平台11.2.1 HDFS11.2.2 HBase11.2.3 Cassandra1、Cassandra 简介2、Cassandra分区策略3、存储机制4、Cassandra一致性级别5、维护最终一致性11.2.4 Redis1、Redis简介2、读写分...
复制链接

扫一扫