- 博客(5)
- 资源 (3)
- 收藏
- 关注
原创 web日志预处理(数据清洗)day10
1、需求:对web访问日志中的各字段识别切分去除日志中不合法的记录根据KPI统计需求,生成各类访问请求过滤数据 2、实现代码:a)定义一个bean,用来记录日志数据中的各数据字段public class WebLogBean { private String remote_addr;// 记录客户端的ip地址 private String remote_user;// 记录客户...
2018-07-09 18:22:25 1318
原创 Mapreduce原理全剖析过程
1.mapreduce原理全剖析map+shuffle+reducer wordcount为例 1.mapper开始运行,调用InputFormat组件读取文件逻辑切片(逻辑切片不是block块,切片大小默认和block块大小相同) 2.经过inputformat组件处理后,文件以<k,v>的形式进入我们自定义的mapper逻辑 3.mapper逻辑中输出结果会调用Ou...
2018-07-06 16:46:22 2541 1
原创 mapreduce框架设计思想
1、mapreduce框架设计思想 mapreduce结构 一个完整的mapreduce程序在分布式运行时有三类实例进程: 1、MRAppMaster:负责整个程序的过程调度及状态协调 2、mapTask:负责map阶段的整个数据处理流程 3、ReduceTask:负责reduce阶段的整个数据处理流程运行流程:以wordcount(单词统计)为例 分析: 假如要统计三个文件中每个单词出现的次数 ...
2018-07-03 16:44:13 1158
原创 HDFS的namenode管理元数据机制及一些问题
namenode对数据的管理采用了三种存储形式: 内存元数据(NameSystem) 磁盘元数据镜像文件 数据操作日志文件(可通过日志运算出元数据) 元素据存储机制 1、内存中有一份完整的元数据(内存meta data) 2、磁盘有一个“准完整”的元数据镜像(fsimage)文件(在namenode的工作目录中) 3、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志(ed...
2018-07-02 18:38:53 1401
原创 客户端向HDFS读写数据机制
1、HDFS集群角色介绍1.HDFS集群分为两大角色:NameNode、DataNode (Secondary Namenode)2.NameNode负责管理整个文件系统的元数据3.DataNode 负责管理用户的文件数据块4.文件会按照固定的大小(blocksize,2.x以后默认是128M)切成若干块后分布式存储在若干台datanode上5.每一个文件块可以有多个副本,并存...
2018-07-02 18:34:56 1764
MySQL-server和MySQL-clien
2018-03-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人