hadoop框架
文章平均质量分 81
Luffy_captain
对自己接触的一系列技术的总结介绍,希望可以给家提供帮助,也帮助自己加深记忆
展开
-
hadoop框架之HDFS介绍
hdfs介绍 hdfs是一个文件系统,用于存储文件,通过目录树来定位文件,是分布式的,可以对文件或文件夹进行上传、删除、下载、文件夹可以创建,但不能进行修改、文件不能进行创建。适合一次写入,多次读出的场景,所以适合做数据分析。组成 hdfs:包含namenode、datanode、secondary namenode三部分。 namenode:负责管理整个文件系统的...原创 2018-09-15 18:05:32 · 263 阅读 · 0 评论 -
hadoop框架之MapReduce介绍
MapReduce简单介绍 MapReduce是一个分布式的计算框架,核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算框架,并发运行在hadoop集群上。引入MapReduce框架后,开发人员可以将绝大部分的工作集中于业务逻辑上的开发,具体的计算只需要交给框架就可以。用于处理海量的数据分析计算工作,但目前因为性能问题,正在被spark替代。MapReduc...原创 2018-09-16 11:49:39 · 1194 阅读 · 0 评论 -
hadoop框架之zookeeper
zookeeper介绍zookeeper是一个分布式协调服务系统,为用户的分布式应用程序提供协调服务,所提供的服务有多个,比如主从协调,服务器节点动态上下线,同步服务等。从设计模式来讲,这其实是一个基于监听者模式的设计。zookeeper=文件系统+通知机制(配置数据存储在系统中,当该数据发生变化时,触发监听机制)zookeeper的主要作用是:减轻为分布式应用开发协调服务的负担zoo...原创 2018-09-17 23:21:23 · 743 阅读 · 0 评论 -
hadoop框架之hdfs、MapReduce、yarn的整体大致流程
各个框架之间的关系hdfs是负责存储数据文件的,MapReduce是负责文件的分析计算,而yarn是负责管理资源的,即整个MapReduce阶段map任务和reduce任务运行所需要的资源。这是这三者之间的关系。首先文件会上传至hdfs上,这是hdfs阶段,具体就是每份文件都会被切分成默认大小为128M的block块,然后每个block块默认会被存储在三个不同的datanode上,即拥有三个...原创 2018-09-20 23:00:48 · 929 阅读 · 0 评论 -
HA高可用集群详细搭建过程及配置文件简介(附带各种组件的安装配置)
配置网络保证可以ping通外网,关闭防火墙,然后用xshell来操作//配置的ip、网关等信息vim /etc/sysconfig/network-scripts/ifcfg-eth0 //网卡 DEVICE=eth0 //是否开机启动 ONBOOT=yes //ip地址 IPADDR=192.168.0.100 //子网掩码 NETMASK=255.255.255.0...原创 2018-09-29 23:51:31 · 1162 阅读 · 0 评论 -
Hadoop项目简单流程及各个组件的作用
今天通过一个简单的小项目给大家将整个hadoop期间的组件做一个小总结。这个项目按照不同组件的功能,这里把它分为5个部分。数据采集ETL数据分析数据导出数据展现下面我们来一个一个的详细介绍首先是数据采集:数据采集有多种方式:可以通过shell脚本、java程序、flume等方式,可以根据不同的业务需求来选择shell脚本:适合一些简单的业务逻辑,轻量级的,但对日志采集过程中的...原创 2018-10-22 23:13:18 · 3318 阅读 · 0 评论 -
flume日志采集框架
简单介绍flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合、传输系统。可以采集文件、socket数据包等多种形式源数据,又可以将采集到的数据输出到HDFS、kafka、hive、hbase等存储系统中。flume是属于生产者和消费者模式,目前不支持高可用,需要编写相应的脚本来监听,当agent挂掉时,脚本自动启动agent。agent会记录上一次的收集位置。运行机制核...原创 2018-10-25 23:40:53 · 205 阅读 · 0 评论