hadoop
jinYwuM
每个阶段,都做最好的自己。
展开
-
Hadoop中分片split的原理解析
一、定义1、block:block是物理切块,在文件上传到HDFS文件系统后,对大文将以每128MB的大小切分若干,存放在不同的DataNode上;2、split:split是逻辑切片,在mapreduce中的map task开始之前,将文件按照指定的大小切割成若干个部分,每一部分称为一个split,默认是split的大小与block的大小相等,均为128MB。注意:在hadoop1....原创 2018-08-06 19:53:33 · 4136 阅读 · 0 评论 -
Hadoop2.7.4完全分布式环境搭建
软件版本虚拟机管理软件:VMware WorkStation Pro 12.0 操作系统:CentOS 6.7 Hadoop:Hadoop 2.7.4 JDK:jdk-8u65-linux-x64.tar.gz一、环境准备1、修改各个节点主机名:vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=node12、修改主机名和I...原创 2018-08-03 01:29:52 · 1320 阅读 · 0 评论 -
通过漫画轻松掌握HDFS工作原理
转 通过漫画轻松掌握HDFS工作原理 <div class="article-info-box"> <div class="article-bar-top d-转载 2018-08-08 23:35:00 · 349 阅读 · 0 评论 -
Hadoop集群实现HA
软件版本:CentOS 6.7 jdk-8u171-linux-x64.tar.gz zookeeper-3.4.12.tar.gz hadoop-2.7.4-with-centos-6.7.tar.gz一、集群部署节点角色的规划1、集群部署节点角色的规划(7节点) node01 namenode zkfc node02 namenode zkfc...原创 2018-08-27 22:47:58 · 304 阅读 · 0 评论 -
Flume NG高可用集群搭建
软件版本:CentOS 6.7 hadoop-2.7.4 apache-flume-1.6.0一、Flume NG简述Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 Flume将采集到的文件,socket数据包等各种形式的数据源,输出到HDFS、Hbase、hive、kafka等众多外部存储系统中 Flume针对特殊场景...原创 2018-09-10 23:15:44 · 1264 阅读 · 0 评论 -
flume拦截器
摘要:拦截器是简单的插件式组件,设置在source和channel之间。source接收到的时间,在写入channel之前,拦截器都可以进行转换或者删除这些事件。每个拦截器只处理同一个source接收到的事件。可以自定义拦截器。flume内置了很多拦截器,并且会定期的添加一些拦截器,在这里列出一些flume内置的,经常使用的拦截器。一、拦截器的种类介绍1、Timestamp Int...原创 2018-09-11 03:02:32 · 15342 阅读 · 0 评论 -
MapReduce运行模式
MapReduce运行模式1、本地模式 OR 集群模式// 设置为local时,运行模式为本地模式config.set("mapreduce.framework.name", "local");// 设置为yarn时,运行模式为集群模式config.set("mapreduce.framework.name", "yarn");2、数据文件的输入输出路径// 设置输入输...原创 2019-07-18 00:07:30 · 394 阅读 · 0 评论