hadoop
文章平均质量分 72
getBinary
这个作者很懒,什么都没留下…
展开
-
mapreduce-3(实现topn)
mapreduce-3 网上看到的topn实现需求,想用MapReduce实现下,在实现过程中,踩了两个坑,所以记录下来补充之前没提到的细节 需求:求一篇文章中出现的高频单词topn 数据源: Since childhood, Mr. Lu Xun in his desk now on a "morning", this style started to affect the students of history, several generations of renewal and transforma原创 2021-04-08 14:16:06 · 426 阅读 · 0 评论 -
mapreduce-2(条件自定义)
mapreduce-2自定义InputFormat自定义Partitioner自定义Sort自定义Group自定义OutputFormat 自定义InputFormat 参照TextInputFormat源码,继承FileInputFormat,重写createRecordReader方法和isSplitable方法即可 读取方式设为一次读取一个文件 MyInputFormat类实现 public class MyInputFormat extends FileInputFormat<NullWrit原创 2021-03-25 15:10:59 · 113 阅读 · 0 评论 -
mapreduce-1(wordcount)
mapreduce-1mapreduce原理及操作过程代码实现wordcount mapreduce原理及操作过程 inputformat读取->maptask->分区->排序->规约->分组->reductask->outputformat写入结果 分区就是根据key来决定哪些key-value被分到同一个reduce处理, 而分组是根据key来决定同一个reduce中的key-value在同一批次中进行处理。 代码实现wordcount mapper类实现原创 2021-03-23 15:58:14 · 112 阅读 · 0 评论 -
HA(高可用)集群搭建
高可用集群搭建配置文件初始化yarn配置 在完全分布式集群基础上修改,共三台结点 配置文件 需要修改两个配置文件 core-site.xml <configuration> <property> #这里的hadoopHA是自定义的集群名称 <name>fs.defaultFS</name> <value>hdfs://hadoopHA</value> </property&原创 2021-03-22 16:25:36 · 170 阅读 · 0 评论 -
hdfs命令
hdfs命令文件系统操作命令admin操作JavaAPI 文件系统操作命令 hdfs文件系统命令基本与linux系统命令相同,只需要在前面名加上hdfs dfs - 命令 作用 说明 -mkdir 创建目录 -p选项递归创建 -ls 显示内容 -R选项递归显示 -put 上传文件 -copyFrmoLocal 上传文件 与put作用相同 -get 下载文件 -copyToLocal 下载文件 与get作用相同 -mv 移动文件 不允许跨文件系统 -cp 复制文原创 2021-03-19 14:02:57 · 490 阅读 · 0 评论 -
hadoop集群搭建
hadoop集群搭建 已完成伪分布式集群的搭建,本篇目标:搭建三个结点组成的分布式结点架构 第一步:将上次搭建的伪分布式节点的hadoop文件夹分发到剩余两个结点上 # 设置每台结点路径相同,方便后面的配置 cd /opt scp hadoop root@num05${PWD} scp hadoop root@num06${PWD} 第二步:修改配置文件 # 2.1修改hadoop.env.sh、yarn-env.sh和mapred-env.sh # 该文件只需要修改JAVA_HOME,注意如果三台结点J原创 2021-03-18 18:51:51 · 84 阅读 · 0 评论 -
环境搭建及hadoop安装
环境配置及软件安装环境配置域名映射免密登录关闭SELinux时钟同步软件安装配置文件环境变量配置 环境配置 目标配置三台虚拟机(CentOS7.6版本),网络配置已完成,JDK已安装并配置环境变量,防火墙已关闭 hostnamectl set-hostname num04 域名映射 【必选操作】 首先配置当前主机名 可以执行hostname查看到当前主机名,为进行配置的话可以看到一个IP地址 执行hostnamectl set-hostname 主机名,为主机设置主机名,这里三台主机就分别命名为num04原创 2021-03-12 22:53:07 · 139 阅读 · 0 评论