---------【Hadoop】
文章平均质量分 79
皮皮的雅客
这个作者很懒,什么都没留下…
展开
-
多输入问题(多种格式数据的输入处理)
在hadoop中,可以处理多种输入格式的文件。如下给出的例子是同时输入文本和二进制文件。Mapperpublic class WCSeqMapper extends Mapper<IntWritable, Text, Text, IntWritable> { @Override protected void map(IntWritable ...原创 2018-08-09 09:15:15 · 542 阅读 · 0 评论 -
批分发和批同步脚本
说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349linux版本:CentOS-7-x86_64-Minimal-1611.isoJDK版本:jdk-8u65-linux-x64.tar.gzHadoop版本:hadoop-2.7.6.tar.gz 在完全分布式的配置中,在修改了一台主机的文件后,需要执行n...原创 2018-08-16 11:13:22 · 312 阅读 · 0 评论 -
hadoop中的几个核心配置
说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349linux版本:CentOS-7-x86_64-Minimal-1611.isoJDK版本:jdk-8u65-linux-x64.tar.gzHadoop版本:hadoop-2.7.6.tar.gzhadoop中几个核心的配置如下配置临时目录 ...原创 2018-08-08 23:08:04 · 2615 阅读 · 0 评论 -
第一个MR程序—WordsCount
编写MR编写Mapperimport org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io....原创 2018-08-08 23:07:11 · 2546 阅读 · 0 评论 -
配置高可用(名称节点高可用)
本文详细配置名称节点的高可用,什么是高可用可参考官方文档说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349linux版本:CentOS-7-x86_64-Minimal-1611.isoJDK版本:jdk-8u65-linux-x64.tar.gzHadoop版本:hadoop-2.7.6.tar.gz...原创 2018-08-08 23:05:43 · 1346 阅读 · 0 评论 -
远程调试(压缩与解压缩)
我们可以将本地写好的程序打包成jar文件放入集群中,然后在本地进行调试运行。在调试之前先分享几个技巧。配置maven-antrun-plugin,实现文件的复制在pom.xml中导入如下配置:<build> <finalName>MyHadoop</finalName> <plugins&gt原创 2018-08-08 23:03:53 · 372 阅读 · 0 评论 -
centos minimal安装Hadoop
大数据学习第一步,把Hadoop配置起来,终于到这一步了,激动!!!说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349linux版本:CentOS-7-x86_64-Minimal-1611.isoJDK版本:jdk-8u65-linux-x64.tar.gzHadoop版本:hadoop-2.7.6.t...原创 2018-08-08 22:59:18 · 324 阅读 · 0 评论 -
Hadoop配置—伪分布模式
Hadoop分为三种配置模式:独立模式(standalone|local),伪分布模式(Pseudodistributed mode),完全分布式(full distributed)说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349linux版本:CentOS-7-x86_64-Minimal-1611.is...原创 2018-08-08 22:58:19 · 329 阅读 · 0 评论 -
Hadoop配置—完全分布式
Hadoop分为三种配置模式:独立模式(standalone|local),伪分布模式(Pseudodistributed mode),完全分布式(full distributed)说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349linux版本:CentOS-7-x86_64-Minimal-1611.is...原创 2018-08-07 15:06:25 · 316 阅读 · 0 评论 -
hadoop中的二次排序
hadoop 中的另一种定制的排序手段就是二次排序(对value进行排序)二次排序步骤如下准备工作 对一个文本中数据进行排序,找出每年的最高气温public void makeData() throws IOException { FileWriter fw = new FileWriter("F:/hadoop/temp.txt"); ...原创 2018-08-09 09:19:26 · 209 阅读 · 0 评论 -
hadoop中的全排序
hadoop 有一个很重要的功能就是能对处理的数据进行清洗,排序(部分排序),将杂乱无章的数据编程有序的数据。hadoop的MR框架能对数据进行默认的排序(部分排列),下面将介绍第一种定制排序——全排序(按照key进行排序)。全排序的几种实现只定义一个reduce,默认就是全排序自定义分区函数(自行设置分界区间)使用hadoop的采样机制 重点来说一下使...原创 2018-08-09 09:18:31 · 1170 阅读 · 0 评论 -
配置机架感知
为了达到hadoop的最佳性能,配置hadoop系统让其了解网络拓扑状况很关键。机架感知是一种优化hadoop集群的方式,使hdfs能更加智能的放置副本(replica),以取得性能和弹性的平衡。 hadoop默认的副本放置策略: 首选在本地机架的一个node存放副本,另一个副本在本地机架的另一个不同节点。最后一个副本在不同机架的不同节点上如下是自定义机架感知的基本步骤:...原创 2018-08-09 09:16:30 · 353 阅读 · 0 评论 -
8节点(hadoop+yarn+hbase+storm+kafka+spark+zookeeper)高可用集群详细配置
配置 hadoop+yarn+hbase+storm+kafka+spark+zookeeper 高可用集群,同时安装相关组建:JDK,MySQL,Hive,Flume文章目录环境介绍节点介绍集群介绍软件版本介绍前期准备相关配置新建用户 centos添加sudo权限更改用户名主机名与IP映射显示当前文件的绝对路径ssh免密登录关闭防火墙两个批处理脚本批分发指令脚本(xcall.sh)批同步...原创 2018-11-03 13:58:29 · 3006 阅读 · 3 评论