Hadoop大数据框架知识总结
文章平均质量分 94
Hadoop及大数据相关框架学习知识总结
iceburg-blogs
北京邮电大学计算机技术研究生,主要研究方向为自然语言处理,信息抽取,知识图谱。
展开
-
Spark大数据计算框架知识总结
文章目录Spark简介Spark架构Spark简介Spark是专为大规模数据处理而设计的计算引擎。Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是,Spark计算过程中的中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的算法。Spark是对 Hadoop 的补充,它可以通过名为 Mesos...原创 2020-11-14 13:52:49 · 2378 阅读 · 0 评论 -
消息队列kafka知识总结
文章目录Kafka简介Kafka是什么消息队列消息队列的两种工作模式点对点模式发布/订阅模式Kafka架构Kafka消息存储机制Kafka分区策略Kafka数据可靠性保证Kafka向producer发送ack确认的时机ISR(in-sync replica set )ack应答机制Kafka中的故障处理follower发生故障:leader发生故障:Kafka简介Kafka是什么Kafka是...原创 2020-02-03 18:38:33 · 2150 阅读 · 1 评论 -
深入理解Java中间件Zookeeper
文章目录Zookeeper简介Zookeeper的设计思想Zookeeper的特点Zookeeper中的数据结构Zookeeper的应用场景统一命名服务统一配置管理统一集群管理服务器节点动态上下线软负载均衡Zookeeper简介ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务框架,是Google的Chubby一个开源的实现、Hadoop和Hbase的重要组件。ZooKeepe...原创 2020-01-26 15:43:00 · 1301 阅读 · 0 评论 -
Hadoop组件之Yarn
文章目录Yarn简介Yarn架构Yarn工作流程分析Yarn简介Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。Yarn架构Yarn主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成,下图是Yarn的架...原创 2020-01-25 18:28:05 · 994 阅读 · 0 评论 -
MapReduce计算框架知识总结(一)
文章目录一.MapReduce简介1.1 MapReduce的三类进程二.MapReduce特点2.1 高容错性2.2 适用场景比较小三.MapReduce工作原理3.1 MapReduce编程规范MapperReducerDriver3.2 MapReduce程序示例四.MapReduce中的序列化4.1 Hadoop序列化特点:一.MapReduce简介MapReduce是一个分布式运算程...原创 2020-01-24 16:07:26 · 3867 阅读 · 0 评论 -
HDFS分布式文件系统知识总结
文章目录一.分布式文件系统HDFS二.HDFS的特点及适用场景2.1 HDFS的高容错性2.2 HDFS的适用场景三.HDFS架构3.1 HDFS集群中的主要角色3.2 NameNode和Secondary Namenode的工作原理FsImage和EditsNameNode和Secondary Namenode的工作流程NameNode和Secondary Namenode功能详解3.3 Dat...原创 2020-01-22 15:46:25 · 1894 阅读 · 0 评论 -
Scala基础-01-Scala环境安装及基础语法(变量,函数)
Scala简介Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。Scala是编写大数据框架Spark的语言,随着大数据的兴起,越来越多的人开始学习ScalaScala语言的优点优雅:这是框架设计师第一个要考虑的问题,框架的用户是应用开发程序员,API是否优雅直接影响用户...原创 2018-07-05 22:41:16 · 551 阅读 · 0 评论 -
原生Hadoop集群搭建过程记录
前言本篇博客内容是在虚拟机的CentOS7系统上搭建Hadoop集群的步骤,Hadoop集群的节点分为namenode和datanode,namenode可以看作是Hadoop的master节点,datanode可以看作是node节点,一个集群一般由一个namenode和多个datanode组成一.准备工作1.1 修改主机名修改network文件vi /etc/sysconfig/netw...原创 2019-10-16 23:00:06 · 249 阅读 · 0 评论 -
Windows下安装hadoop2.7.1
1.安装前需要准备的文件需要先去官网下载hadoop,但下载完的hadoop是不能直接在Windows上运行的,需要替换bin和etc两个文件夹,替换成专门为Windows下运行而编译的对应版本的bin和etc文件夹,可以在csdn下载中下载:也可以去官网先下载hadoop,然后去GitHub下载hadooponwindows。hadoop官网,hadooponwindows GitHub下载地...原创 2019-03-30 11:04:25 · 6013 阅读 · 2 评论 -
使用虚拟机搭建ClouderaManager平台,并自动部署一个hadoop集群(CDH)
本文将从最基础的环境配置开始,介绍如何在Linux虚拟机中搭建一个CM集群,并使用CDH自动部署一个Hadoop集群。文章目录一.CM及CDH介绍CMCDH二.准备工作2.1 硬件资源分配2.2 下载需要的各种安装包1.基础工具JDK和MySQL2.CM安装包3.CDH离线库2.3 安装JDK2.4 设置免密登录2.5 关闭SELINUX2.6 安装MySQL并创建CDH需要的数据库安装MySQ...原创 2020-01-19 09:55:22 · 1912 阅读 · 4 评论 -
Hadoop入门
Hadoop生态圈Hadoop简介Hadoop是apache旗下的一套开源分布式计算框架。Hadoop的作用简单来说就是利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理。 Hadoop的核心组件有三个,分别是:1.分布式文件系统HDFS,2.运算资源调度系统YARN,3.分布式运算编程框架MAPREDUCE 我们平时说的Hadoop通常是指一个更广泛的概念——Ha...原创 2018-06-07 12:09:27 · 321 阅读 · 0 评论