大数据
浮躁-lh
这个作者很懒,什么都没留下…
展开
-
Flume-采集目录到HDFS
需求 某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去思路 根据需求,首先定义以下3大要素1. 数据源组件,即source ——监控文件目录 : spooldir 1. 监视一个目录,只要目录中出现新文件,就会采集文件中的内容 2. 采集完成的文件,会被agent自动添加一个后缀:COMPLETED...原创 2020-01-29 12:36:32 · 922 阅读 · 0 评论 -
MapReduce之shuffle详解
shuffle 是 Mapreduce 的核心,它分布在 Mapreduce 的 map 阶段和 reduce 阶段。一般 把从 Map 产生输出开始到 Reduce 取得数据作为输入之前的过程称作 shuffle。1. Collect阶段 :将 MapTask 的结果输出到默认大小为 100M 的环形缓冲区,保存的是 key/value,Partition 分区信息等。2. Spill...原创 2020-01-27 14:32:25 · 494 阅读 · 0 评论 -
MapReduce之mapTask阶段详解
整个Map阶段流程大体如上图所示。简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给 map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集 器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个map task都有 一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时...原创 2020-01-27 14:28:28 · 503 阅读 · 0 评论 -
hadoop zookeeper常用命令
hadoop fs -cat /out/sort/part-r-00000 查看hadoop fs -ls -R / 递归查看目录zkServer.sh starthadoop jar mapreduce_wordcount-1.0-SNAPSHOT.jar cn.mapreduce_sort.JobMain mapreduce运行jar包hdfs...原创 2020-01-24 15:22:43 · 223 阅读 · 0 评论 -
MapReduce词频统计案例(hadoop3)
创建maven工程xml配置在maven选型了取消test,打包,上传集群,开始执行。package cn.mapreduce;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;impor...原创 2020-01-21 20:26:25 · 446 阅读 · 0 评论 -
hadoop3.1.1配置idea-maven的xml文件
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http:...原创 2020-01-21 20:19:01 · 895 阅读 · 1 评论 -
zokeeper-3.4.6安装配置
•1,zookeeper(配置)–conf/zoo.cfg•dataDir=/var/sxt/zk•server.1=node02:2888:3888•server.2=node03:2888:3888•server.3=node04:2888:3888•–/var/sxt/zk•echo 1 > myid //数字根据节点规划...原创 2020-01-20 19:37:59 · 125 阅读 · 0 评论 -
hadoop3.1.1-ha高可用搭建
hadoop HA 集群的搭建依赖于 zookeeper,所以选取三台当做 zookeeper 集群我总共准备了四台主机node01,node02,node03,node04。其中 node01 和 node02 做 namenode 的主备切换安装zookeeper集群 # 目录 usr/hadoop-3.1.1/etc/hadoopexp...原创 2020-01-19 16:55:42 · 217 阅读 · 0 评论 -
hadoop3.1.1伪分布式部署 Centos6
hadoop3.1.1https://pan.baidu.com/s/1chjqOFWBE8sXQPIEEQujjg s982linux jdk1.8 https://pan.baidu.com/s/1HIgv6v0qFgKQb1B3OVzNFQ 1l32环境 Centos6解压安装hadooptar -xzvf 文件名配置环境变量这个目录下cd /h...原创 2019-12-27 11:25:35 · 159 阅读 · 0 评论