hadoop
20boy发愤图强想当功城狮
这个作者很懒,什么都没留下…
展开
-
zookeeper 原理与配置(单机与分布式)
ZooKeeper 安装 配置 使用Zookeeper的概述:ZooKeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。ZooKeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,ZooKeeper就将负责通知已经在ZooKeeper上注册的那些观察者做出相应的反应。例如:一组服务器集群、一组客户端,全部通过ZooKeeper注册,如果一台服务节点宕机,则ZooK原创 2020-09-30 17:53:58 · 286 阅读 · 1 评论 -
单机hadoop-Yarn部署
Yarn的部署: Hadoop2.0新增了Yarn,Yarn的引用主要有两个方面的改变: 1.增强了NameNode的水平扩展能力和高可用性。 2.MapReduce将Hadoop1.0中的JobTracker中的资源管理和任务生命周期管理拆分成两个独立的组件,资源管理对应ResourceManager,任务生命周期管理对应ApplicationMaster。部署Yarn:应官方要求 单节点配置: 你可以通过设置一些参数原创 2020-09-30 17:53:35 · 1014 阅读 · 0 评论 -
Hive原理与配置(伪分布式与分布式)
Hive原理与配置Hive概述:1.Hive是一个构建于Hadoop顶层的数据仓库工具,可以查询和管理PB级别的分布式数据。2.支持大规模数据存储、分析,具有良好的可扩展性 某种程度上可以看作是用户编程接口,本身不存储和处理数据。3.依赖分布式文件系统HDFS存储数据。 依赖分布式并行计算模型MapReduce处理数据。4.定义了简单的类似SQL 的查询语言——HiveQL。5.用户可以通过编写的HiveQL语句运行MapReduce任务。6. 可以很容易把原来构建在关系数据库上的数据仓库应原创 2020-09-30 17:52:48 · 1081 阅读 · 0 评论 -
日志Flume采集工具安装与使用方法
Flume概述flume 简介1.flume是cloudera开发的后来贡献给了Apache的一套用分布式,高可靠的,高可用的海量分布式日志采集、聚合和传输的系统。2.flume 的版本更新缓慢但是稳定。原创 2020-09-30 17:52:23 · 324 阅读 · 0 评论 -
Sqoop 了解与安装
SqoopSqoop简介Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目原创 2020-09-30 17:51:30 · 210 阅读 · 1 评论 -
kafka的安装和简单实例
Kafka 安装部署Kafka介绍(摘自百度百科)Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过H原创 2020-09-30 17:50:59 · 146 阅读 · 0 评论 -
Spark安装和实践(Spark2.0)
SparkSpark简介Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发的通用内存并行计算框架Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集,具有以下特点。1.运行速度快:Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据由磁盘读取,速度是Hadoop MapReduce的10倍以上,如果数据从内存中读取,速度可原创 2020-09-30 17:50:31 · 713 阅读 · 0 评论 -
hadoop伪分布是详细部署
hadoop集群 单机版配置 1.配置准备一台虚拟据(centos.7系统) 2.相关文件安装包(注:可以去清华大学开源软件里找到镜像文件并下载) 3.准备xftp与xshell 用于导入文件和编写命令软件。我调整了已经发表的hadoo的分布式文档和现在遇到的一些问题原因,简化了配置文件等。关闭防火墙 $ | sudo systemctl stop firewalld 临时关闭防火墙 $ | sudo systemctl disable firewalld 开机时禁止自动开启防火墙 $ |原创 2020-09-30 17:50:02 · 382 阅读 · 0 评论