- 博客(15)
- 资源 (2)
- 收藏
- 关注
原创 14.partitioner分区
将之前流量案例按号码前三位来分区1.FlowCountMapperpublic class FlowCountMapper extends Mapper<LongWritable, Text, Text, FlowBean>{ @Override protected void map(LongWritable key, Text value, Context context)...
2018-10-30 15:05:39 155
原创 13.小文件combine优化
1.场景:有许多小文件,若提交到集群,一个小文件及时没有到达一个块大小也占用一个块,浪费空间。2.优化:在drive自定义设置//指定运行的inputformat方式 默认的方式是textinputformat(小文件优化) job.setInputFormatClass(CombineTextInputFormat.class); CombineTextInputFormat.s...
2018-10-30 15:01:53 231
原创 12,maptask工作机制与maptask并行度与决定机制
1.准备数据200MB2.提交任务程序drivemaptask通过inputformat读取,通过spilt切分了原文件,spilt=blocksize3.mapper->map(k,v,context)->outputcollector4.向环形缓冲区写入数据,默认大小为100MB,超过80%开始溢写5.进行默认的分区排序6.merge归并排序...
2018-10-30 14:58:00 296
原创 11.mr案例:流量分析
1.数据2.需求:统计总流量:上行流量+下限流量3.Mapperpublic class FlowCountMapper extends Mapper<LongWritable, Text, Text, FlowBean>{ @Override protected void map(LongWritable key, Text value, Context context...
2018-10-30 14:49:12 373
原创 10.hadoop序列化与编程规范
1.序列化JAVA 类型 HADOOP 类型int IntWritablefloat FloatWritablelong LongWritabledouble DoubleWritablestring Textboolean BooleanWritablebyte ByteWritablemap ...
2018-10-30 14:39:10 129
原创 9.在yarn运行wordcount程序
1.WordMapper:public class WordcountMap extends Mapper&lt;LongWritable, Text, Text, IntWritable&gt; { @Override protected void map(LongWritable key, Text value, Context context) throws IOException...
2018-10-30 14:34:22 655
原创 8.Yarn的任务提交流程和Mapreduce的核心编程思想
1.yarn的服务进程1)Resource Managernodemanager的大哥,客户端提交任务后,Job需要多少容器,需要RM来分配,需要在主节点上(不建议)或者单独一台服务器来配置RM2)Node ManagerRM将容器信息给nodemanager,NM开辟一个运算资源(内存+cpu),用于创建maptask的容器2.MR核心编程思想1)图中需求:统计a-z的单词出现次...
2018-10-30 14:19:23 227
原创 7.配置yarn集群
配置yarn集群1)大数据解决的问题?海量数据的存储:hadoop-&gt;分布式文件系统HDFS海量数据的计算:hadoop-&gt;分布式计算框架MapReduce2)什么是MapReduce?分布式程序的编程框架,java-&gt;ssh ssm ,目的:简化开发!是基于hadoop的数据分析应用的核心框架。mapreduce的功能:将用户编写的业务逻辑代码和自带默认组件整合...
2018-10-30 14:02:18 214
原创 6.手写MR框架
myjob.properties:IN_PATH=/mrtest/inOUT_PATH=/mrtest/out/rs.txtMAPPER_CLASS=com.mydemo.mr.WordCountMapper1.HdfsWordCount:public class HdfsWordCount { public static void main(String[] args) thro...
2018-10-30 13:56:34 410 1
原创 maprudece的shuffle机制
Maprudece的Shuffle机制1.shuffle:map的输出作为reduce的输入的中间的过程2.shuffle的阶段1)由map()方法将key/vaule写到环形缓冲区当中2)环形缓冲区默认为100MB,若达到阈值(80%)就会发生溢写,产生临时文件(将80MB的文件溢写,并且不影响向缓冲区写入数据的过程,这个过程是启动了单独的一个线程来做,如果map输出的数据量大,溢写可...
2018-10-28 22:53:33 591
原创 5.rpc协议与设置secondary的checkpoint
1.客户端与namenode的通信过程1)namenode本身就是一个RPC服务端,需要绑定指定ip和端口。2)手写一个RPC框架:1.服务端:import java.io.IOException;public class PublishServer{ public static void main(String[] args)throws HadoopIllegalArgumentE...
2018-10-27 09:45:21 136
原创 4.HDFS的API总结
import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.con...
2018-10-16 18:03:51 446
原创 3.HDFS读写操作原理以及namenode与工作secondarynamenode原理
1.HDFS写入数据工作原理上传hunter.txt文件(bytebuffer是缓冲流,高效)1.通过客户端向namenode请求上传2.namenode进行应答,可以上传3.请求上传第一个块(0-128M),请求返回datanode4.namenode返回datanode列表5.客户端请求与datanode建立block传输通道6.datanode应答,NameNode分配的多个...
2018-10-16 16:55:26 903
原创 2.HDFS常用命令以及简单API
1) kill -9 xxxx 杀掉进程 2)hdfs的客户端1.网页形式-&amp;amp;gt;测试用 ip:500702.命令行形式-&amp;amp;gt;测试用3.企业级API查看帮助 hdfs dfs -help 查看hdfs命令参数1)查看目录文件hdfs dfs -ls /2)上传文件hdfs dfs -put /本地路径 /hdfs路径3)下载文件hdfs dfs -get /...
2018-10-13 18:10:00 797
原创 1.centos7下Hadoop2.8.4全分布搭建之HDFS集群搭建
1)搭建前的准备 注意:(以下操作可以先配置一台,然后通过scp命令发送到其他两台虚拟机上 发送到其他机器 scp -r 主机名: 注意:加载环境变量 source /etc/profile 免密登陆 -》ssh-keygen 生成密钥对(回车) -》 ssh-copy-id 自己 ssh-cop...
2018-10-13 12:57:47 1142 3
winutils2.8.4-hadoop2.8.4
2018-11-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人