Hadoop
Normcorer
个人博客 https://molzhao.xyz/
展开
-
Java大数据之路--MapReduce(2)序列化和分区
MapReduce(分布式计算模型)---序列化和分区一、序列化在MapReduce中,要求数据能够被序列化 MapReduce的序列化机制默认采用的AVRO MapReduce对AVRO的序列化机制进行了封装,提供了更简便的序列化形式 - 实现接口Writable案例一、创建一个flow类并对其序列化package cn.zyj.flow;import java.io.D...原创 2019-11-01 20:55:07 · 497 阅读 · 0 评论 -
Java大数据之路--MapReduce(1)
MapReduce(分布式计算模型)目录MapReduce(分布式计算模型)一、概述二、入门案例案例一、统计文件中的每一个单词出现的次数(文件:words.txt)案例二、找出最大值案例三、输出每一个单词出现的文件(目录:invert)一、概述MapReduce是一种分布式计算模型 由谷歌提出,基于GFS进行设计,主要用于搜索领域中解决海量数据的计算问题 D...原创 2019-11-01 09:34:04 · 297 阅读 · 0 评论 -
Java大数据之路--HDFS详解(5)--执行流程及API操作
HDFS(分布式文件存储系统)--执行流程及API操作目录HDFS(分布式文件存储系统)--执行流程及API操作流程一、读取流程/下载二、写入流程/上传三、删除流程流程一、读取流程/下载客户端发起RPC请求到NameNode NameNode在接收到请求之后会进行校验: 校验指定路径是否存在 校验文件是否有存在 如果文件存在,NameNode就会读...原创 2019-10-30 17:06:17 · 240 阅读 · 0 评论 -
Java大数据之路--HDFS详解(4)--回收站机制及dfs目录
HDFS(分布式文件存储系统)--回收站机制及dfs目录目录HDFS(分布式文件存储系统)--回收站机制及dfs目录一、回收站机制概述配置注意事项二、dfs目录概述三、查看edits文件和fsimage文件一、回收站机制概述 在HDFS中,回收站机制默认是关闭的,即从HDFS上删除文件的时候是立即删除的 可以通过配置来手动开启回收站,指定...原创 2019-10-30 14:59:47 · 566 阅读 · 0 评论 -
Java大数据之路--HDFS详解(3)--基本命令
HDFS(分布式文件存储系统)--基本命令目录HDFS(分布式文件存储系统)--基本命令一、常见命令二、其他命令一、常见命令 命令 说明 hadoop fs -mkdir /park 在hdfs 的根目录下,创建 park目录 hadoop fs -ls / ...原创 2019-10-30 14:46:13 · 367 阅读 · 0 评论 -
Java大数据之路--HDFS详解(2)--技术细节
HDFS(分布式文件存储系统)--技术细节目录HDFS(分布式文件存储系统)--技术细节一、HDFS架构二、Block三、NameNode四、副本放置策略五、机架感知策略六、DataNode七、SecondaryNameNode一、HDFS架构HDFS中,存储数据的时候会将数据进行切块,每一个块称之为Block 本身是一个分布式的,可扩展,可靠的文件系...原创 2019-10-30 10:57:09 · 759 阅读 · 0 评论 -
Java大数据之路--HDFS详解(1)--概述
HDFS(分布式文件存储系统)--概述目录HDFS(分布式文件存储系统)--概述一、概述二、特点优点:缺点:一、概述全称为Hadoop Distributed File System ,Hadoop分布式文件存储系统 HDFS是根据谷歌的论文:《The Google File System》进行设计的 本身是一个分布式的,可扩展,可靠的文件系统 HDFS中包含...原创 2019-10-30 09:33:45 · 214 阅读 · 0 评论 -
Java大数据之路--Hadoop(2)伪分布式安装
伪分布式安装目录伪分布式安装一、步骤1、关闭防火墙2、配置主机名3、配置hosts文件,将主机名和ip地址进行映射4、配置ssh进行免密互通5、下载文件6、配置hadoop-env.sh7、配置 core-site.xml 8、配置 hdfs-site.xml 9、配置yarn-site.xml ...原创 2019-10-29 19:31:42 · 174 阅读 · 0 评论 -
Java大数据之路--Hadoop(1)
Hadoop目录Hadoop大数据简介(6V)Hadoop概述一、发展历程:二、模块:三、版本:四、下载安装大数据简介(6V)Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是T、P(1024个T)、E(100万个T)或Z(10亿个T) Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为...原创 2019-10-29 15:56:38 · 343 阅读 · 0 评论