自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

开水烫鱼的博客

分享学习总结

  • 博客(15)
  • 资源 (2)
  • 收藏
  • 关注

原创 14.partitioner分区

将之前流量案例按号码前三位来分区1.FlowCountMapperpublic class FlowCountMapper extends Mapper<LongWritable, Text, Text, FlowBean>{ @Override protected void map(LongWritable key, Text value, Context context)...

2018-10-30 15:05:39 155

原创 13.小文件combine优化

1.场景:有许多小文件,若提交到集群,一个小文件及时没有到达一个块大小也占用一个块,浪费空间。2.优化:在drive自定义设置//指定运行的inputformat方式 默认的方式是textinputformat(小文件优化) job.setInputFormatClass(CombineTextInputFormat.class); CombineTextInputFormat.s...

2018-10-30 15:01:53 231

原创 12,maptask工作机制与maptask并行度与决定机制

1.准备数据200MB2.提交任务程序drivemaptask通过inputformat读取,通过spilt切分了原文件,spilt=blocksize3.mapper->map(k,v,context)->outputcollector4.向环形缓冲区写入数据,默认大小为100MB,超过80%开始溢写5.进行默认的分区排序6.merge归并排序...

2018-10-30 14:58:00 296

原创 11.mr案例:流量分析

1.数据2.需求:统计总流量:上行流量+下限流量3.Mapperpublic class FlowCountMapper extends Mapper<LongWritable, Text, Text, FlowBean>{ @Override protected void map(LongWritable key, Text value, Context context...

2018-10-30 14:49:12 373

原创 10.hadoop序列化与编程规范

1.序列化JAVA 类型 HADOOP 类型int IntWritablefloat FloatWritablelong LongWritabledouble DoubleWritablestring Textboolean BooleanWritablebyte ByteWritablemap ...

2018-10-30 14:39:10 129

原创 9.在yarn运行wordcount程序

1.WordMapper:public class WordcountMap extends Mapper<LongWritable, Text, Text, IntWritable> { @Override protected void map(LongWritable key, Text value, Context context) throws IOException...

2018-10-30 14:34:22 655

原创 8.Yarn的任务提交流程和Mapreduce的核心编程思想

1.yarn的服务进程1)Resource Managernodemanager的大哥,客户端提交任务后,Job需要多少容器,需要RM来分配,需要在主节点上(不建议)或者单独一台服务器来配置RM2)Node ManagerRM将容器信息给nodemanager,NM开辟一个运算资源(内存+cpu),用于创建maptask的容器2.MR核心编程思想1)图中需求:统计a-z的单词出现次...

2018-10-30 14:19:23 227

原创 7.配置yarn集群

配置yarn集群1)大数据解决的问题?海量数据的存储:hadoop->分布式文件系统HDFS海量数据的计算:hadoop->分布式计算框架MapReduce2)什么是MapReduce?分布式程序的编程框架,java->ssh ssm ,目的:简化开发!是基于hadoop的数据分析应用的核心框架。mapreduce的功能:将用户编写的业务逻辑代码和自带默认组件整合...

2018-10-30 14:02:18 214

原创 6.手写MR框架

myjob.properties:IN_PATH=/mrtest/inOUT_PATH=/mrtest/out/rs.txtMAPPER_CLASS=com.mydemo.mr.WordCountMapper1.HdfsWordCount:public class HdfsWordCount { public static void main(String[] args) thro...

2018-10-30 13:56:34 410 1

原创 maprudece的shuffle机制

Maprudece的Shuffle机制1.shuffle:map的输出作为reduce的输入的中间的过程2.shuffle的阶段1)由map()方法将key/vaule写到环形缓冲区当中2)环形缓冲区默认为100MB,若达到阈值(80%)就会发生溢写,产生临时文件(将80MB的文件溢写,并且不影响向缓冲区写入数据的过程,这个过程是启动了单独的一个线程来做,如果map输出的数据量大,溢写可...

2018-10-28 22:53:33 591

原创 5.rpc协议与设置secondary的checkpoint

1.客户端与namenode的通信过程1)namenode本身就是一个RPC服务端,需要绑定指定ip和端口。2)手写一个RPC框架:1.服务端:import java.io.IOException;public class PublishServer{ public static void main(String[] args)throws HadoopIllegalArgumentE...

2018-10-27 09:45:21 136

原创 4.HDFS的API总结

import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.con...

2018-10-16 18:03:51 446

原创 3.HDFS读写操作原理以及namenode与工作secondarynamenode原理

1.HDFS写入数据工作原理上传hunter.txt文件(bytebuffer是缓冲流,高效)1.通过客户端向namenode请求上传2.namenode进行应答,可以上传3.请求上传第一个块(0-128M),请求返回datanode4.namenode返回datanode列表5.客户端请求与datanode建立block传输通道6.datanode应答,NameNode分配的多个...

2018-10-16 16:55:26 903

原创 2.HDFS常用命令以及简单API

1) kill -9 xxxx 杀掉进程 2)hdfs的客户端1.网页形式->测试用 ip:500702.命令行形式->测试用3.企业级API查看帮助 hdfs dfs -help 查看hdfs命令参数1)查看目录文件hdfs dfs -ls /2)上传文件hdfs dfs -put /本地路径 /hdfs路径3)下载文件hdfs dfs -get /...

2018-10-13 18:10:00 797

原创 1.centos7下Hadoop2.8.4全分布搭建之HDFS集群搭建

1)搭建前的准备 注意:(以下操作可以先配置一台,然后通过scp命令发送到其他两台虚拟机上 发送到其他机器 scp -r 主机名: 注意:加载环境变量 source /etc/profile 免密登陆 -》ssh-keygen 生成密钥对(回车) -》 ssh-copy-id 自己 ssh-cop...

2018-10-13 12:57:47 1142 3

hadoop2.8.4的hadoop.dll

支持hadoop2.8.4,其他的我没有试过,有问题的可以下载试试,放到hadoop的/bin目录下

2018-11-11

winutils2.8.4-hadoop2.8.4

使用hadoop的api从hdfs上下载文件,出现问题,需要将这个winutils放到hadoop的bin目录里,hadoop2.8.4和5可以用

2018-11-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除