Hadoop
leoxry
天道酬勤,拼搏一个最好的自己送给未来的自己,每天开开心心敲代码就是一种幸福,不计得失,回归刚开始学习时内心的单纯
展开
-
Linux - 安装Mimimal版本及配置
1 点击 文件,选择 新建虚拟机2 选择 自定义,点击下一步3 选择 Workstation 11.x,点击下一步4 选择 稍后安装操作系统,点击下一步5 选择 Linux(L) 和 CentOS 6 64位,点击下一步6 输入虚拟机名称 hadoop01 和选择位置,点击下一步7 处理器数量 1,点击下一步8 选择内存,点击下一步9 使用网络地址转换(NAT)模式...原创 2019-08-08 09:45:28 · 711 阅读 · 0 评论 -
MapReduce - A - 排序 - TreeSet
题目:求评分(平均值)最高的前10的电影id?(输出:moveid 平均分)思路:Map中获取数据,键:电影好,值:电影信息类(实现Comparable)Reduce中汇总数据,将某部电影的评分算出来,然后放到TreeSet中Reducer的cleanup中,输出TreeSet中记录的电影信息代码://电影信息类package Sort02;import org...原创 2019-09-07 20:58:11 · 291 阅读 · 0 评论 -
MapReduce - A - 分组 - Comparator
题目:求每个通信商的上行、下行、总流量 (输出:通信商 上行 下行 总的)思路:通过手机号的前三位区分通信运营商按照运营商分组后,在每个Reduce里计算各运营商总和即可代码://分组比较器package Comparator02;import org.apache.hadoop.io.WritableComparable;import org.apache...原创 2019-09-07 20:56:22 · 283 阅读 · 0 评论 -
MapReduce - A - 分区 - Partitioner
题目:求每个通信商的上行、下行、总流量 (输出:通信商 上行 下行 总的)思路:通过手机号的前三位区分通信运营商按照运营商分区后,在每个Reduce里计算各运营商总和即可代码://分区比较器package Partitioner02;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapre...原创 2019-09-07 20:53:33 · 199 阅读 · 0 评论 -
MapReduce - A - 迭代(多次MR)
题目:对给定的文件进行词频统计,然后按照词频从大到小排序词频相同时,按照单词的字典序思路:通过两个MR进行解决第一个MR:统计词频第二个MR:利用Shuffle阶段的排序,实现排序效果代码://单词类package Test02;import org.apache.hadoop.io.WritableComparable;import java.io.Dat...原创 2019-09-07 20:51:21 · 784 阅读 · 0 评论 -
MapReduce - 词频统计
统计一个文本的词频package Test01;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import or...原创 2019-09-02 19:52:19 · 952 阅读 · 0 评论 -
HDFS - 命令
1 edits文件转为xml文件 hdfs oev XML -i /home/hadoop/data/hadoopdata/name/current/edits_0000000000000000004-0000000000000000016 -o /home/edits.xml2 安全模式进入安全模式hdfs dfsadmin -safemode enter查看安全模式hdfs d...原创 2019-08-31 20:33:23 · 166 阅读 · 0 评论 -
HDFS - 写流程、读流程
写流程(1)客户端向NameNode发起写数据请求(2)分块写入DataNode节点,DataNode自动完成副本备份(3)DataNode向NameNode汇报存储完成,NameNode通知客户端图示如下:读流程(1)客户端向NameNode发起读数据请求(2)NameNode找出距离最近的DataNode节点信息(3)客户端从DataNode分块下载文件图示如下:...原创 2019-08-31 20:27:10 · 148 阅读 · 0 评论 -
Hadoop - 命令
1 查看文件系统hadoop fs -ls /2 文件上传hadoop fs -put test.txt /3 文件下载hadoop fs -get /test/input/a/t1.txt /home/hadoop/t2.txt4 查看内容hadoop fs -cat /test.txt 5 递归创建目录hadoop fs -mkdir -p /test/output/...原创 2019-08-31 20:18:11 · 335 阅读 · 0 评论 -
Hadoop - 问题 & 解决
1 HDFS - 数据节点DataNode未启动原因:运行bin/hdfs namenode -format初始化之后,导致namenode的clusterID和datanode的clusterID不一致解决方案:找到name和data的current文件夹(找不到可以到根目录使用find / -name current查找所有可能的进而选择name),打开VERSION文件,将name的cl...原创 2019-08-28 00:56:18 · 209 阅读 · 0 评论 -
HDFS - 入门
HDFS简介1 大数据框架体系2 基本概念3 设计目标原创 2019-08-22 16:05:15 · 181 阅读 · 0 评论 -
MapReduce - A - 归约 - Combiner
题目:使用Conbiner进行词频统计思路:Combiner在整个Map阶段结束后,进行一次合并,可以理解为提前的一次reduce代码://MyCombinerpackage A_Combiner02;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import o...原创 2019-09-07 21:45:12 · 279 阅读 · 0 评论