Hadoop
文章平均质量分 91
hadoop
coolcoo1cool
变得更强
展开
-
【Hadoop】5.4 Hadoop压缩
5.4 Hadoop压缩5.4.1 概述5.4.2 压缩方式的选择5.4.3 压缩位置的选择5.4.4 压缩参数配置5.4.5 压缩实操案例5.4.1 概述压缩的好处和坏处压缩的优点:以减少磁盘 IO、减少磁盘存储空间压缩的缺点 :增加 CPU开销压缩原则运算密集型的 Job,少用压缩IO密集型的 Job,多用压缩MapReduce支持的压缩编码压缩算法对比介绍压缩格式Hadoop 是否自带算法文件扩展名是否可切片换成压缩格式后,原原创 2021-08-14 09:27:18 · 152 阅读 · 0 评论 -
【Hadoop】5.3 ⭐MapReduce框架原理
5.3 ⭐MapReduce框架原理5.3.1 MapReduce工作流程5.3.2 InputFormat 数据输入5.3.3 Shuffle 机制(分区、排序)5.3.4 OutputFormat 数据输出5.3.5 MapReduce 内核源码解析5.3.6 Join的多种应用5.3.7 数据清洗(ETL)5.3.1 MapReduce工作流程输入数据接口: InputFormat默认使用的实现类是: TextInputFormatTextInputFormat的功能逻辑是:一次读一原创 2021-08-14 09:26:37 · 224 阅读 · 0 评论 -
【Hadoop】5.2 Hadoop 序列化
5.2 Hadoop 序列化5.2.1 序列化概述5.2.2 bean对象实现序列化5.2.3 序列化案例5.2.1 序列化概述什么是序列化序列化就是 把内存中的对象,转换成字节序列 (或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输反序列化就是将收到字节序列(或其他数据传输协议)或者是 磁盘的持久化数据,转换成内存中的对象为什么要序列化一般来说,“活的”对象只生存在内存里,关机断电就没有了“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机,mapTask和原创 2021-08-13 16:44:34 · 131 阅读 · 0 评论 -
【Hadoop】5.1 MapReduce概述
5. MapReduce5.1 MapReduce概述5.1.1 MapReduce 核心思想5.1.2 MapReduce 编程规范5.1.3 WordCount案例5.2 Hadoop 序列化5.2.1 序列化概述5.2.2 bean对象实现序列化5.2.3 序列化案例5.3 ⭐MapReduce框架原理5.3.1 MapReduce工作流程5.3.2 InputFormat 数据输入5.3.3 Shuffle 机制(分区、排序)5.3.4 OutputFormat 数据输出5.3.5 MapReduc转载 2021-08-13 16:40:16 · 161 阅读 · 0 评论 -
【Hadoop】4. HDFS
4. HDFS4.1 HDFS概述4.2 HDFS组成框架4.3 HDFS 文件块大小4.4 HDFS的Shell操作4.4.1 基本语法4.4.2 常用命令4.4 HDFS的API操作4.4.1 客户端环境准备4.4.2 HDFS文件上传4.4.3 HDFS文件下载4.4.4 HDFS删除文件或目录4.4.5 HDFS文件更名移动4.4.6 HDFS获取文件信息4.4.7 HDFS类型判断4.5 HDFS的读写流程4.5.1 HDFS 写数据流程4.5.2 HDFS 读数据流程4.6 NameNode 和原创 2021-08-13 15:29:23 · 202 阅读 · 0 评论 -
【Hadoop】3. Hadoop运行模式
3. Hadoop运行模式3.1 本地运行模式3.2 ⭐完全分布式运行模式3.2.1 虚拟机准备3.2.2 编写集群分发脚本 xsync3.2.3 SSH无密登录3.2.4 集群配置3.2.5 群起集群3.2.6 配置历史服务器3.2.7 配置日志聚集功能3.2.8 集群启动/停止方式总结3.2.9 编写Hadoop集群常用脚本3.2.10 常用端口号3.2.11 集群时间同步3.2.12 ⭐常见问题Hadoop运行模式包括:本地模式:单机运行,只是用来演示一下官方案例,生产环境不用伪分布式原创 2021-08-13 15:08:04 · 217 阅读 · 0 评论 -
【Hadoop】2. Hadoop入门
2. Hadoop入门2.1 Hadoop概念2.2 Hadoop运行环境搭建2.3 克隆虚拟机2.4 安装JDK2.5 安装Hadoop2.6 Hadoop的目录结构2.1 Hadoop概念Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构主要解决,海量数据的存储和海量数据的分析计算问题广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈Hadoop发展历史Hadoop创始人Doug Cutting,为了实现与Go原创 2021-08-13 14:41:13 · 174 阅读 · 0 评论 -
【Hadoop】 1. 大数据概论
1. 大数据概论1.1 大数据概念1.2 大数据的特点1.3 大数据应用场景1.1 大数据概念大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产大数据主要解决,海量数据的采集、存储和分析计算问题按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte = 8bit 1K = 1024Byte 1转载 2021-08-09 10:52:42 · 162 阅读 · 0 评论