Hadoop
我是丰儿你是沙
学一行,做一行,懂一行,爱一行…
展开
-
HDFS上传流程以及操作命令
HDFS文件上传流程操作HDFS的基本命令1) 打印文件列表标准写法:hadoop fs -ls hdfs:/#hdfs: 明确说明是HDFS系统路径简写:hadoop fs -ls /#默认是HDFS系统下的根目录打印指定子目录:hadoop fs -ls /package/test/#HDFS系统下某个目录2) 上传文件、目录(put、copyFromLoc...原创 2018-10-11 21:00:23 · 12711 阅读 · 0 评论 -
MapReducer基础案例整理
一、数据去重–Mapper类:public class DataMapper extends Mapper<LongWritable,Text,Text,Text> { @Override protected void map(LongWritable key, Text value, Context context) throws IOException, Inte...原创 2018-10-10 11:43:18 · 548 阅读 · 0 评论 -
Join关联联系案例
一、封装类:public class Bean implements Writable { private String orderId; private String userId; private String name; private String age; private String userName; private String f...原创 2018-10-10 11:42:23 · 269 阅读 · 0 评论 -
好友推荐案例
一、编写类public class RecommendOne { public static class OneMapper extends Mapper<LongWritable, Text, Text, Text> { @Override protected void map(LongWritable key, Text value, ...原创 2018-10-10 11:41:56 · 822 阅读 · 0 评论 -
订单金额总和案例
一、创建一个封装类public class Things implements WritableComparable<Things> { //订单id private String order; //用户id private String user; //商品名字 private String things; //单价 ...原创 2018-10-10 11:41:28 · 1376 阅读 · 0 评论 -
倒排索引创建案例
重点注意:1.FileSplit split = (FileSplit) context.getInputSplit();String fileName = split.getPath().getName();//获取文件的名字2.context.write(new Text(split1[0]),new Text(split1[1].replaceAll("\t","–>"...原创 2018-10-10 11:40:54 · 665 阅读 · 0 评论 -
mapreduce统计排序,页面访问次数
Mapper类:public class PkMapper extends Mapper<LongWritable, Text, Text, IntWritable> { @Override protected void map(LongWritable key, Text value, Context context) throws IOException, Int...原创 2018-10-10 11:39:27 · 2219 阅读 · 0 评论 -
MapReduce提交集群运行,Yarn调度MR流程
一、在windows下调试产生不兼容问题时下载winunil.rar包解压覆盖配置文件到hadoop包bin目录下即可。Map:1.切分单词String line = value.toString();2.遍历单词数据输出context.write(new Text(),new IntWritable());Reduce:1.拿到map给过来的结果对数据中的value.list遍历叠...原创 2018-10-10 11:38:31 · 493 阅读 · 0 评论 -
MapReduce的编程模型,计数器
1.job = map+reduce2.Map的输出是reduce的输入3.所有的输入和输出都是<Key,Values>,一共4对。4.K2=K3 V3是一个集合,该集合的每个元素就是V2。5.所有的数据类型都必须是Hadoop自己的数据类型。int--->IntWritablelong--->LongWritablestring--->Textnu...原创 2018-10-09 08:46:07 · 157 阅读 · 0 评论 -
Hadoop搭建集群
一、什么是Hadoop?hadoop中有3个核心组件:分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上HDFS 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分。Client:就是客户端。 1、文件切分。文...原创 2018-10-09 08:41:44 · 253 阅读 · 0 评论 -
HA高可用
搭建7台服务器一、总结注意:1.Journalnode的路径2.Yarn的路径3.各个框架之间对应关系的免密登录hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.4.1又增加了YARN HA注意:apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以...原创 2018-10-11 20:54:14 · 182 阅读 · 0 评论