2018年07月_清剑兔

08月 07月 06月 05月

原创 web日志预处理（数据清洗）day10

1、需求：对web访问日志中的各字段识别切分去除日志中不合法的记录根据KPI统计需求，生成各类访问请求过滤数据 2、实现代码：a)定义一个bean，用来记录日志数据中的各数据字段public class WebLogBean { private String remote_addr;// 记录客户端的ip地址 private String remote_user;// 记录客户...

2018-07-09 18:22:25 1318

原创 Mapreduce原理全剖析过程

1.mapreduce原理全剖析map+shuffle+reducer wordcount为例 1.mapper开始运行，调用InputFormat组件读取文件逻辑切片（逻辑切片不是block块，切片大小默认和block块大小相同） 2.经过inputformat组件处理后，文件以<k,v>的形式进入我们自定义的mapper逻辑 3.mapper逻辑中输出结果会调用Ou...

2018-07-06 16:46:22 2541 1

1、mapreduce框架设计思想 mapreduce结构一个完整的mapreduce程序在分布式运行时有三类实例进程： 1、MRAppMaster：负责整个程序的过程调度及状态协调 2、mapTask：负责map阶段的整个数据处理流程 3、ReduceTask：负责reduce阶段的整个数据处理流程运行流程：以wordcount（单词统计）为例分析：假如要统计三个文件中每个单词出现的次数 ...

2018-07-03 16:44:13 1158

原创 HDFS的namenode管理元数据机制及一些问题

namenode对数据的管理采用了三种存储形式：内存元数据(NameSystem) 磁盘元数据镜像文件数据操作日志文件（可通过日志运算出元数据）元素据存储机制 1、内存中有一份完整的元数据(内存meta data) 2、磁盘有一个“准完整”的元数据镜像（fsimage）文件(在namenode的工作目录中) 3、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志（ed...

2018-07-02 18:38:53 1401

原创客户端向HDFS读写数据机制

1、HDFS集群角色介绍1.HDFS集群分为两大角色：NameNode、DataNode (Secondary Namenode)2.NameNode负责管理整个文件系统的元数据3.DataNode 负责管理用户的文件数据块4.文件会按照固定的大小(blocksize，2.x以后默认是128M)切成若干块后分布式存储在若干台datanode上5.每一个文件块可以有多个副本，并存...

2018-07-02 18:34:56 1764

ulipad.4.1

ulipad.4.1的Linux版本，已经在Ubuntu和CentOS上面试用过。

2018-03-09

MySQL-server和MySQL-clien

压缩包包含MySQL-server-5.5.28-1.linux2.6.x86_64.rpm和MySQL-client-5.5.28-1.linux2.6.x86_64.rpm

2018-03-03

java50个实战项目视频

java实战项目视频，包含小游戏、网上在线支付、国家税务平台、点餐系统、学生管理系统、ATM项目、人事管理系统等50个项目实战视频。

2018-01-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

清剑兔的博客

原创 web日志预处理（数据清洗）day10

原创 Mapreduce原理全剖析过程

原创 mapreduce框架设计思想

原创 HDFS的namenode管理元数据机制及一些问题

原创客户端向HDFS读写数据机制

ulipad.4.1

MySQL-server和MySQL-clien

java50个实战项目视频

空空如也

原创 web日志预处理（数据清洗）day10

原创 Mapreduce原理全剖析过程

原创 mapreduce框架设计思想

原创 HDFS的namenode管理元数据机制及一些问题

原创 客户端向HDFS读写数据机制

ulipad.4.1

MySQL-server和MySQL-clien

java50个实战项目视频

空空如也

原创客户端向HDFS读写数据机制