大数据
大数据主流技术简介
大数据主流技术简介
之前因为工作原因,将大数据放下了,最近有时间又重新温故了一遍
文章目录
前言
在学习一个东西前,我们首先得明确我们学习的目的:
- 我们为什么要学习这个?
- 学习这个有什么用?
- 这个有什么优点值得我们学习?
接下来就让我们开始学习吧
一、大数据的技术分类
大数据的技术分类大致可以分为三类
1.存储类
分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案,内存数据库等。
2.计算类
Map Reduce
流计算
图计算
等
………
3.应用类
HIVE,pig,mahout,Sqoop以及ETL工具,统计与报告工具等
二、发展和工具
1.Google的演进过程
Google 于2006 年首先提出了云计算的概念,并研发了一系列云计算技术和工具。难能可贵的是Google 并未将这些技术完全封闭,而是以论文的形式逐步公开其实现。正是这些公开的论文,使得以GFS、MapReduce、Bigtable 为代表的一系列大数据处理技术被广泛了解并得到应用,同时还催生出以Hadoop为代表的一系列云计算开源工具。
技术发展如图:
2.主流技术
主流技术如图:
Hadoop生态
在学习大数据前,我们不得不认识到一个东西,那就是hadoop.
Hadoop是什么?
1.Hadoop是一个分布式系统基础架构,由Apache基金会开发
2.Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架,借助于Hadoop,程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。
3.Hadoop已经发展成为目前最流行的大数据处理平台
Hadoop的优点
1.可扩展
不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。它可以安装许多的插件来扩展Hadoop,以便于我们操作
2.经济
我们可以将平时用不到的设备或硬件设性能较差的机器组合成集群,来弥补硬件的不足
3.可靠
分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。(元数据磁盘错误,心跳测试,默认3份副本数),其主备容灾的思想,能让我们面对意外突发情况数据丢失时不至于手忙脚乱,手足无措。
4.高效
分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备。多个设备组件的集群可以同时对批量数据和流式数据进行处理。
(我们之后会讲到什么是批量处理和流式处理)
举例
既然hadoop有那么多的优点,我们可以实际举一个例子来证明其Hadoop并非徒有虚名
比如当我们需要批量统计时某个地域的车辆里程情况、道路等级,通过速度判断车型、车辆驾驶情况等,
Hadoop分布式存储+分布式运算的框架使用mapreduce 对该地域的各种情况进行分析处理,然后存储在hive数据仓库之中(hive 我们后期会提到),这样子我们就可以统计分析出近一两年来的地域车辆状况,然后建模和历史数据统计分析
流计算和内存计算
流计算
流计算的产生
对于流计算的产生我们得明确一个点:
数据的价值会随着时间而降低
例如:1.淘宝里很多人购买东西都会出现冲动消费的情况,如果系统不能在极短时间推荐出顾客可能购买的产品,那么便会损失一笔订单
2.业务监控:当我们系统遇到一个异常时,我们通常需要及时有效的解决。如果不能及时反馈出问题所在,我们又怎么可能做到有效的解决呢,这可能会造成不可挽回的损失
我们之后会了解到专门处理流式数据的产品Storm
内存计算
内存计算的产生
对于实时的数据我们需要实时的处理,显然,传递的处理方式已经不满足我们的需求,此时我们便需要更快,更精准的方式来处理数据,减少数据对IT的依赖
总结
以上就是今天温习的内容,本文仅仅简单介绍了大数据中常见的概念介绍,因为该生态是特别巨大的,我们只能将该生态的各个内容分成模块然后又逐一讲解。