2018年10月_清风千雨

12月 11月 10月 09月

原创 14.partitioner分区

将之前流量案例按号码前三位来分区1.FlowCountMapperpublic class FlowCountMapper extends Mapper<LongWritable, Text, Text, FlowBean>{ @Override protected void map(LongWritable key, Text value, Context context)...

2018-10-30 15:05:39 155

原创 13.小文件combine优化

1.场景：有许多小文件，若提交到集群，一个小文件及时没有到达一个块大小也占用一个块，浪费空间。2.优化:在drive自定义设置//指定运行的inputformat方式默认的方式是textinputformat(小文件优化) job.setInputFormatClass(CombineTextInputFormat.class); CombineTextInputFormat.s...

2018-10-30 15:01:53 231

原创 12,maptask工作机制与maptask并行度与决定机制

1.准备数据200MB2.提交任务程序drivemaptask通过inputformat读取，通过spilt切分了原文件，spilt=blocksize3.mapper->map(k,v,context)->outputcollector4.向环形缓冲区写入数据,默认大小为100MB，超过80%开始溢写5.进行默认的分区排序6.merge归并排序...

2018-10-30 14:58:00 296

原创 11.mr案例：流量分析

1.数据2.需求：统计总流量：上行流量+下限流量3.Mapperpublic class FlowCountMapper extends Mapper<LongWritable, Text, Text, FlowBean>{ @Override protected void map(LongWritable key, Text value, Context context...

2018-10-30 14:49:12 373

原创 10.hadoop序列化与编程规范

1.序列化JAVA 类型 HADOOP 类型int IntWritablefloat FloatWritablelong LongWritabledouble DoubleWritablestring Textboolean BooleanWritablebyte ByteWritablemap ...

2018-10-30 14:39:10 129

原创 9.在yarn运行wordcount程序

1.WordMapper:public class WordcountMap extends Mapper&lt;LongWritable, Text, Text, IntWritable&gt; { @Override protected void map(LongWritable key, Text value, Context context) throws IOException...

2018-10-30 14:34:22 655

原创 8.Yarn的任务提交流程和Mapreduce的核心编程思想

1.yarn的服务进程1)Resource Managernodemanager的大哥,客户端提交任务后，Job需要多少容器，需要RM来分配,需要在主节点上(不建议)或者单独一台服务器来配置RM2)Node ManagerRM将容器信息给nodemanager，NM开辟一个运算资源（内存+cpu），用于创建maptask的容器2.MR核心编程思想1)图中需求:统计a-z的单词出现次...

2018-10-30 14:19:23 227

原创 7.配置yarn集群

配置yarn集群1）大数据解决的问题？海量数据的存储：hadoop-&gt;分布式文件系统HDFS海量数据的计算：hadoop-&gt;分布式计算框架MapReduce2）什么是MapReduce?分布式程序的编程框架，java-&gt;ssh ssm ，目的：简化开发！是基于hadoop的数据分析应用的核心框架。mapreduce的功能：将用户编写的业务逻辑代码和自带默认组件整合...

2018-10-30 14:02:18 214

原创 6.手写MR框架

myjob.properties:IN_PATH=/mrtest/inOUT_PATH=/mrtest/out/rs.txtMAPPER_CLASS=com.mydemo.mr.WordCountMapper1.HdfsWordCount:public class HdfsWordCount { public static void main(String[] args) thro...

2018-10-30 13:56:34 410 1

原创 maprudece的shuffle机制

Maprudece的Shuffle机制1.shuffle:map的输出作为reduce的输入的中间的过程2.shuffle的阶段1)由map()方法将key/vaule写到环形缓冲区当中2)环形缓冲区默认为100MB,若达到阈值(80%)就会发生溢写，产生临时文件(将80MB的文件溢写，并且不影响向缓冲区写入数据的过程，这个过程是启动了单独的一个线程来做，如果map输出的数据量大，溢写可...

2018-10-28 22:53:33 591

原创 5.rpc协议与设置secondary的checkpoint

1.客户端与namenode的通信过程1)namenode本身就是一个RPC服务端，需要绑定指定ip和端口。2）手写一个RPC框架：1.服务端：import java.io.IOException;public class PublishServer{ public static void main(String[] args)throws HadoopIllegalArgumentE...

2018-10-27 09:45:21 136

原创 4.HDFS的API总结

import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.con...

2018-10-16 18:03:51 446

原创 3.HDFS读写操作原理以及namenode与工作secondarynamenode原理

1.HDFS写入数据工作原理上传hunter.txt文件（bytebuffer是缓冲流，高效）1.通过客户端向namenode请求上传2.namenode进行应答，可以上传3.请求上传第一个块(0-128M)，请求返回datanode4.namenode返回datanode列表5.客户端请求与datanode建立block传输通道6.datanode应答，NameNode分配的多个...

2018-10-16 16:55:26 903

1) kill -9 xxxx 杀掉进程 2)hdfs的客户端1.网页形式-&amp;amp;gt;测试用 ip:500702.命令行形式-&amp;amp;gt;测试用3.企业级API查看帮助 hdfs dfs -help 查看hdfs命令参数1)查看目录文件hdfs dfs -ls /2)上传文件hdfs dfs -put /本地路径 /hdfs路径3)下载文件hdfs dfs -get /...

2018-10-13 18:10:00 797

原创 1.centos7下Hadoop2.8.4全分布搭建之HDFS集群搭建

1)搭建前的准备注意：（以下操作可以先配置一台，然后通过scp命令发送到其他两台虚拟机上发送到其他机器 scp -r 主机名: 注意:加载环境变量 source /etc/profile 免密登陆 -》ssh-keygen 生成密钥对（回车） -》 ssh-copy-id 自己 ssh-cop...

2018-10-13 12:57:47 1142 3

hadoop2.8.4的hadoop.dll

支持hadoop2.8.4，其他的我没有试过，有问题的可以下载试试，放到hadoop的/bin目录下

2018-11-11

winutils2.8.4-hadoop2.8.4

使用hadoop的api从hdfs上下载文件，出现问题，需要将这个winutils放到hadoop的bin目录里，hadoop2.8.4和5可以用