![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop学习
初入小萌新
这个作者很懒,什么都没留下…
展开
-
Hadoop小例子
安装配置比较简单只需要在官网下载hadoop.taz.gz文件以及jdk即可然后解压到响应的位置,并且配置java环境小例子中的问题:无法解析域名解决方案:这两处的名称要相同...原创 2018-07-10 20:27:30 · 908 阅读 · 0 评论 -
hadoop处理数据的效率的几个因素
1、与文件大小无关,与有效数据读写有关2、与实际运算的效率有关原创 2018-07-27 11:25:03 · 1334 阅读 · 0 评论 -
Hadoop中MapReduce 的Combiner 的实现
自己实现Combinerpackage com.mapreduce;import java.io.IOException;import org.apache.hadoop.examples.SecondarySort.Reduce;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Reducer...原创 2018-07-26 16:50:15 · 262 阅读 · 0 评论 -
Hadoop HA高可用搭建流程
一些hadoop 的安装配置文件安装zookeeper忽略一切环境都下载,配置文件修改好后需要先将zookeeper启动hadoop01,hadoop02,hadoop03都要执行 zkServer.sh start然后查看每个主机的zkServer.sh status会知道谁是leader,follwer 之后在hadoop01主机下输入开启每个主机的jour...原创 2018-07-21 14:14:53 · 184 阅读 · 0 评论 -
Hadoop 分区案例(根据不同的值分到不同文件)
主程序代码package com.mapreduce;import java.io.IOException;import javax.imageio.stream.FileImageInputStream;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;imp...原创 2018-07-26 11:21:34 · 661 阅读 · 0 评论 -
Hadoop MapReduce 的模板
package com.mapreduce;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io...原创 2018-07-26 11:14:59 · 145 阅读 · 0 评论 -
MapReduce的流程
每一行的输入数据,通过split进行区分然后将区分好的数据存入到各自的Mapping然后Shuffing将key值相同的归在一起安装逻辑Reducing最后的值原创 2018-07-25 19:52:08 · 136 阅读 · 0 评论 -
awk处理数据
cat /etc/passwd | awk -F ':' 'BEGIN{print "名字\t用户Id"} {if($3 >=500) print($1,$3)'}':' :代表按照:进行分割BEGIN:就是开始做的任务$3,$1代表分割后第3个和第1个的值 awk -F ':' 'BEGIN{print "名字\t用户Id"} {if($3 >=500) print(...原创 2018-07-25 19:32:13 · 322 阅读 · 0 评论 -
关于yarn jar error Command "jar" not found.
在使用 yarn jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /data/hdfs-site.xml /out/02跳出error Command "jar" not found.然后进入bin目录下./yarn jar ../share/hadoop/mapreduce/h...原创 2018-07-25 11:15:32 · 1497 阅读 · 0 评论 -
关于安装Ambari的坑
先贴上官网安装教程点击打开链接官网的教程还是比较详细的,但是由于是刚装的虚拟机,有几个问题最开始的时候卡在了mvn -B clean install rpm:rpm -DnewVersion=2.6.2.0.0 -DbuildNumber=631319b00937a8d04667d93714241d2a0cb17275 -DskipTests -Dpython.ver="python ...原创 2018-07-13 11:56:03 · 1102 阅读 · 1 评论 -
关于hadoop集群中,webui上没有slave而jps存在datanode的问题
集群结构hadoop01 主hadoop02 从hadoop03从首先,在主机hadoop01 ping hadoop02 成功ping通所以在 start-dfs.sh是可以的并且hadoop02上 jps也有datanode但是在web ui上却没有显示然后在hadoop02上 ping hadoop01发现ping不通就去查看发现hadoop01不...原创 2018-07-18 11:18:40 · 1596 阅读 · 0 评论 -
hadoopHa高可用搭建时一直出现的错误
在core-site.xml配置文件中fs.defaultFS的value值不能用端口号,如果有端口号就会连接不上 Operation category READ is not supported in state standby当初出现这个错误的时候,在web ui 中都能看到一个是standby一个是active重启start-dfs.sh以后就成功了,能够正常对hdfs进...原创 2018-07-23 16:24:11 · 445 阅读 · 0 评论 -
Hadoop生态圈中HBase、Hive、Hdfs的作用
HBaseHbase是类似redis的NoSql数据库,如果需要快速插入和大量读取我们就使用Hbase。Hivehive是基于Hadoop的一个数据仓库工具可以将结构化的数据文件映射为一张表,并提供类sql查询功能,Hive底层将sql语句转化为mapreduce任务运行这样我们使用的时候就不用编写java代码来作mapreduce任务,只需要使用sql语句就能处理hdfs中的...原创 2018-07-17 11:47:08 · 2059 阅读 · 0 评论