离线计算
时空恋旅人
坚持不懈的学习态度和坚韧的人生品质
展开
-
hadoop--01(hadoop集群搭建)
1.什么是HADOOP? HADOOP是apache旗下的一套开源软件平台,HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理HADOOP的核心组件有 HDFS(分布式文件系统) YARN(运算资源调度系统) MAPREDUCE(分布式运算编程框架) 广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈2....原创 2019-06-12 10:41:40 · 337 阅读 · 0 评论 -
hadoop03--(mapreduce)
1.MAPREDUCE原理篇Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上;2. MAPREDUCE框架结构及核心运行机制 1.结构: 一个完整的mapreduce程序在分布式运行时有三...原创 2018-12-02 18:21:19 · 551 阅读 · 0 评论 -
hadoop--02(hdfs详解)
1.HDFS的概念和特性 首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色;重要特性如下:HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本中是64M HDFS文...原创 2018-12-01 20:53:02 · 175 阅读 · 0 评论 -
hadoop04--(mapreduce增强)
1.mapreduce的运行流程一个mr程序启动的时候,最先启动的是MRAppMaster,MRAppMaster启动后根据本次job的描述信息,计算出需要的maptask实例数量(切片),然后向集群申请机器启动相应数量的maptask进程 maptask进程启动之后,根据给定的数据切片范围进行数据处理,主体流程为: 利用客户指定的inputformat来获取RecordReader读取数...原创 2018-12-09 17:42:14 · 141 阅读 · 0 评论 -
hadoop05--(mapreduce增强)
1.mapreduce的join运算 需求: 订单数据表t_order: id date pid amount 1001 ...原创 2019-01-03 22:16:15 · 218 阅读 · 0 评论 -
hadoop06--(mapreduce增强)
1.倒排索引的建立: 需求:有大量的文本(文档、网页),需要建立搜索索引 计算每个单词在每个文件的出现次数并且将他们排序 创建好输入的文件:思路:一行一行的读,拿到单词,并且拿到文件名字,将单词和文件名字合并在一起作为key输出,然后在reduce端统计即可第一次输出的结果:第二次的输出结果:代码: package com.wx.m...原创 2019-01-14 22:26:12 · 183 阅读 · 0 评论