大数据概念简介

最新推荐文章于 2024-05-07 10:23:19 发布

javaeee1

最新推荐文章于 2024-05-07 10:23:19 发布

阅读量202

点赞数

分类专栏：大数据学习

本文链接：https://blog.csdn.net/javaeee1/article/details/112802483

版权

大数据学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本文简述大数据技术，包括存储类（分布式缓存、NoSQL）、计算类（MapReduce、流计算、图计算）和应用类（Hive、Pig）。重点介绍了Hadoop的分布式架构、可扩展性和可靠性。此外，讨论了流计算的实时性需求，以及内存计算在提升处理速度方面的作用。

摘要由CSDN通过智能技术生成

大数据

大数据主流技术简介

之前因为工作原因，将大数据放下了，最近有时间又重新温故了一遍

前言

在学习一个东西前，我们首先得明确我们学习的目的：

我们为什么要学习这个？
学习这个有什么用？
这个有什么优点值得我们学习？

接下来就让我们开始学习吧

一、大数据的技术分类

大数据的技术分类大致可以分为三类

1.存储类

分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案,内存数据库等。

2.计算类

Map Reduce
流计算
图计算
等
………

3.应用类

HIVE,pig,mahout，Sqoop以及ETL工具，统计与报告工具等

二、发展和工具

1.Google的演进过程

    Google 于2006 年首先提出了云计算的概念，并研发了一系列云计算技术和工具。难能可贵的是Google 并未将这些技术完全封闭，而是以论文的形式逐步公开其实现。正是这些公开的论文，使得以GFS、MapReduce、Bigtable 为代表的一系列大数据处理技术被广泛了解并得到应用，同时还催生出以Hadoop为代表的一系列云计算开源工具。

技术发展如图:
谷歌技术发展图

2.主流技术

主流技术如图:

主流技术技术图

Hadoop生态

在学习大数据前，我们不得不认识到一个东西，那就是hadoop.

Hadoop是什么？

1.Hadoop是一个分布式系统基础架构，由Apache基金会开发
2.Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架，借助于Hadoop，程序员可以轻松地编写分布式并行程序，将其运行于计算机集群上，完成海量数据的计算。
3.Hadoop已经发展成为目前最流行的大数据处理平台

Hadoop的优点

1.可扩展
不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。它可以安装许多的插件来扩展Hadoop,以便于我们操作
2.经济
我们可以将平时用不到的设备或硬件设性能较差的机器组合成集群，来弥补硬件的不足
3.可靠
分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。（元数据磁盘错误，心跳测试，默认3份副本数），其主备容灾的思想，能让我们面对意外突发情况数据丢失时不至于手忙脚乱，手足无措。
4.高效
分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式，为高效处理海量的信息作了基础准备。多个设备组件的集群可以同时对批量数据和流式数据进行处理。
（我们之后会讲到什么是批量处理和流式处理）

举例

既然hadoop有那么多的优点，我们可以实际举一个例子来证明其Hadoop并非徒有虚名

比如当我们需要批量统计时某个地域的车辆里程情况、道路等级，通过速度判断车型、车辆驾驶情况等，
Hadoop分布式存储+分布式运算的框架使用mapreduce 对该地域的各种情况进行分析处理，然后存储在hive数据仓库之中（hive 我们后期会提到），这样子我们就可以统计分析出近一两年来的地域车辆状况，然后建模和历史数据统计分析

流计算和内存计算

流计算

流计算的产生

对于流计算的产生我们得明确一个点：
数据的价值会随着时间而降低
例如：1.淘宝里很多人购买东西都会出现冲动消费的情况，如果系统不能在极短时间推荐出顾客可能购买的产品，那么便会损失一笔订单
2.业务监控：当我们系统遇到一个异常时，我们通常需要及时有效的解决。如果不能及时反馈出问题所在，我们又怎么可能做到有效的解决呢，这可能会造成不可挽回的损失
我们之后会了解到专门处理流式数据的产品Storm