![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据框架
大数据框架基础
闲人勿-
这个作者很懒,什么都没留下…
展开
-
大数据基础学习-1.CentOS-7.0环境安装和Hadoop2.6.0基础配置
一、CentOS7系统安装1.安装CentOS71)在电脑上安装虚拟机软件VMworkstation12pro,并准备CentOS-7.0-1406-x86_64-DVD.iso镜像文件。2)打开VMware,新建虚拟机,选择自定义安装。接下来都选择默认选项,并点击下一步。完成后,出现masteractive虚拟机,这时候,点击CD/DVD,找到本地的CentOS-7....原创 2018-04-23 23:05:29 · 2919 阅读 · 0 评论 -
大数据基础学习-2.Hadoop1.0、MapReduce
一、Hadoop1.0Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。Hadoop是Doug Cutting根据Google的三篇论文开源出来的。为了能对Hadoop有更好的理解,先从Hadoop1.0开始,再过度到Hadoop2.0。...原创 2018-04-24 21:36:45 · 1186 阅读 · 1 评论 -
大数据基础学习-3.Hadoop2.0、Yarn
学习完hadoop1.0可以发现,namenode存在单节点问题,为此hadoop2.0做了重大的改进,现在先从Yarn入手,再到hadoop2.0,学习现在普遍采用的hadoop2.0架构。一、Yarn架构1.Yarn架构和功能• Hadoop集群的资源管理系统,为应用程序提供了基础服务来更好地利用大的、动态的、并行的基础设施资源• Hadoop2.0对MapReduce框架做了彻底的重构,Ma...原创 2018-04-25 21:55:02 · 668 阅读 · 0 评论 -
大数据基础学习-4.Zookeeper-3.4.5
一、Zookeeper-3.4.5 1.分布式协调技术分布式协调技术主要用来解决分布式环境中多个进程之间的同步控制,让他们有序的去访问某种临界资源,防止造成"脏数据"的后果。在这图中有三台机器,每台机器各跑一个应用程序。这三台机器通过网络连接起来,构成一个系统来为用户提供服务,可以把这种系统称作一个分布式系统。假设在第一台机器上挂载了一个资源,三个物理分布的进程都要竞争这个资源,但又不希望他们同时...原创 2018-04-25 22:51:18 · 725 阅读 · 0 评论 -
大数据基础学习-5.Flume1.6.0
一、Flume1.6.0设计架构1.简介• Apache软件基金顶级项目• Apache Flume是一个分布式、可信任的弹性系统,用于高效收集、汇聚和移动大规模日志信息从多种不同的数据源到一个集中的数据存储中心(HDFS、HBase)。• 功能: – 支持在日志系统中定制各类数据发送方,用于收集数据。 – Flume提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力。• 多...原创 2018-04-26 22:54:42 · 426 阅读 · 0 评论 -
大数据基础学习-6.Kafka2.11
一、kafka简介Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司于2010年12月份开源,之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。1.特点• 一种分布式的、基于发布/订阅的消息系统• 特点: – 消息持久化:通过O(1)的磁盘数据结构提供数据的持久化,得益于两个特性 ...原创 2018-04-26 23:03:40 · 1028 阅读 · 0 评论 -
大数据基础学习-7.Hive-1.1.0
一、引入Hive原因– 对存在HDFS上的文件或HBase中的表进行查询时,要手工写一堆MapReduce代码– 对于统计任务,只能由懂MapReduce的程序员才能搞定,耗时耗力FaceBook实现并开源Hive,解决海量结构化日志查询– Hive是一个SQL解析引擎,将SQL语句转译成MR Job,然后在Hadoop平台上运行,达到快速开发的目的。Hive一般不会直接接入到业务中使用,从某种意...原创 2018-04-27 17:38:06 · 1598 阅读 · 0 评论 -
大数据基础学习-8.Hbase-1.2.0
一、HBase概述• HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为 Java。是Apache软件基金会Hadoop项目的一部分,运行于HDFS文件系统之上,因此可以容错地存储海量稀疏的数据。•特性:– 高可靠– 高并发读写–面向列– 可伸缩– 易构建•优点:– 海量数据存储– 快速随机访问– 大量写操作的应用行存储vs列存储•行存储...原创 2018-04-29 16:56:25 · 1186 阅读 · 0 评论 -
大数据基础学习-9.Spark2.1.1(未完成)
一、Spark基础1.1Spark简介• MR有什么问题?– 调度慢,启动map、 reduce太耗时;计算慢,每一步都要保存中间结果落磁盘;API抽象简单,只有map和reduce两个原语;缺乏作业流描述,一项任务需要多轮mr。• 什么是spark?Spark是一个快速的,通用的,大数据规模的运算引擎。– Spark是基于MapReducer实现的通用的分布式计算框架,所以它继承了MapRedu...原创 2018-04-29 17:46:58 · 513 阅读 · 0 评论 -
大数据基础学习-10.Storm1.1.1
一、Storm概述Apache Storm是一个开源的分布式实时大数据处理系统,它是一个真正的流数据框架,实现高频数据和大规模数据实时处理。官网介绍如下。Why use Storm?Apache Storm is a free and open source distributed realtime computation system. Storm makes it easy to reliab...原创 2018-04-30 20:25:57 · 1073 阅读 · 0 评论