自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (3)
  • 收藏
  • 关注

原创 web日志预处理(数据清洗)day10

1、需求:对web访问日志中的各字段识别切分去除日志中不合法的记录根据KPI统计需求,生成各类访问请求过滤数据 2、实现代码:a)定义一个bean,用来记录日志数据中的各数据字段public class WebLogBean { private String remote_addr;// 记录客户端的ip地址 private String remote_user;// 记录客户...

2018-07-09 18:22:25 1318

原创 Mapreduce原理全剖析过程

1.mapreduce原理全剖析map+shuffle+reducer wordcount为例 1.mapper开始运行,调用InputFormat组件读取文件逻辑切片(逻辑切片不是block块,切片大小默认和block块大小相同)     2.经过inputformat组件处理后,文件以<k,v>的形式进入我们自定义的mapper逻辑     3.mapper逻辑中输出结果会调用Ou...

2018-07-06 16:46:22 2541 1

原创 mapreduce框架设计思想

1、mapreduce框架设计思想 mapreduce结构 一个完整的mapreduce程序在分布式运行时有三类实例进程: 1、MRAppMaster:负责整个程序的过程调度及状态协调 2、mapTask:负责map阶段的整个数据处理流程 3、ReduceTask:负责reduce阶段的整个数据处理流程运行流程:以wordcount(单词统计)为例 分析: 假如要统计三个文件中每个单词出现的次数 ...

2018-07-03 16:44:13 1158

原创 HDFS的namenode管理元数据机制及一些问题

namenode对数据的管理采用了三种存储形式: 内存元数据(NameSystem) 磁盘元数据镜像文件 数据操作日志文件(可通过日志运算出元数据) 元素据存储机制 1、内存中有一份完整的元数据(内存meta data) 2、磁盘有一个“准完整”的元数据镜像(fsimage)文件(在namenode的工作目录中) 3、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志(ed...

2018-07-02 18:38:53 1401

原创 客户端向HDFS读写数据机制

1、HDFS集群角色介绍1.HDFS集群分为两大角色:NameNode、DataNode (Secondary Namenode)2.NameNode负责管理整个文件系统的元数据3.DataNode 负责管理用户的文件数据块4.文件会按照固定的大小(blocksize,2.x以后默认是128M)切成若干块后分布式存储在若干台datanode上5.每一个文件块可以有多个副本,并存...

2018-07-02 18:34:56 1764

ulipad.4.1

ulipad.4.1的Linux版本,已经在Ubuntu和CentOS上面试用过。

2018-03-09

MySQL-server和MySQL-clien

压缩包包含MySQL-server-5.5.28-1.linux2.6.x86_64.rpm和MySQL-client-5.5.28-1.linux2.6.x86_64.rpm

2018-03-03

java50个实战项目视频

java实战项目视频,包含小游戏、网上在线支付、国家税务平台、点餐系统、学生管理系统、ATM项目、人事管理系统等50个项目实战视频。

2018-01-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除