大数据
文章平均质量分 95
thisisBenjamin
everything is consequence
展开
-
ZooKeeper, HBase, Azkaban
文章目录ZooKeeper一、ZooKeeper 简介1.1 ZooKeeper 架构1.2 ZooKeeper 特点二、环境搭建三、数据结构 和 监听机制3.1 Znode 类型3.2 Znode 状态信息3.3 Watcher 机制四、基础应用4.1 命令行操作4.2 客户端操作五、原理5.1 Leader 选举5.2 ZAB 一致性协议六、应用实践6.1 服务器状态监听6.2 分布式锁七、Hadoop HA7.1 High Available7.2 HDFS - HA7.3 HDFS - HA 集群配原创 2021-10-16 23:26:05 · 441 阅读 · 0 评论 -
Hive, Hue
文章目录一、Hive 概述二、Hive 数据类型和文件格式2.1 数据类型2.1.1 基本数据类型2.1.2 数据类型隐式转化2.1.3 集合数据类型2.2 文本文件的数据编码2.2.1 默认存储格式的默认分隔符2.2.2 读时模式三、DDL3.1 数据库操作3.2 建表语句3.3 内部表 与 外部表3.4 分区表3.5 分桶表3.6 修改表 与 删除表四、数据操作4.1 数据导入4.2 数据导出五、DQL六、函数6.1 Hive 内置函数6.2 窗口函数6.3 自定义函数七、元数据管理与存储7.1 元数据原创 2021-10-07 22:19:50 · 727 阅读 · 0 评论 -
Hadoop - HDFS, MapReduce, Yarn
Hadoop[@TOC]一、Hadoop 简介重要组成:Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块HDFSNameNode(nn)SecondaryNameNode(2nn)DataNode(dn)MapReducemap 阶段reduce 阶段YarnResourceManager(rm)NodeManager(nm)二、 HDFSHadoop Distribut F原创 2021-09-14 21:59:19 · 204 阅读 · 0 评论 -
大数据开发-学习记录与要点思考-第四章 YARN
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用文章目录系列文章目录前言一、YARN架构分析二、YARN资源管理模型三、YARN调度器四、YARN多资源队列配置和使用二、使用步骤1.引入库2.读入数据总结前言一、YARN架构分析二、YARN资源管理模型三、YARN调度器四、YARN多资源队列配置和使用示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用原创 2021-05-07 12:55:44 · 126 阅读 · 0 评论 -
大数据开发-学习记录与要点思考-第六章 Hive
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用文章目录系列文章目录前言一、Hive 介绍1. 什么是Hive2. Hive的数据存储3. Hive的系统架构4. 元数据存储 Metastore二、数据库与数据仓库1. Hive 和 Mysql2. OLTP 和 OLAP3. Hive 安装部署三、Hive 基础使用1. 使用方式1.1 命令行方式1. 2 JDBC方式2. Set命令的使用3. Hive的日志配原创 2021-05-06 22:39:41 · 170 阅读 · 0 评论 -
大数据开发-学习记录与要点思考-第三章 MapReduce
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用文章目录系列文章目录前言一、MapReduce 和 分布式计算 介绍二、MapReduce 原理三、WordCount 案例四、实现WordCount 案例五、深入了解MapReduce1. MapReduce 任务日志查看2. 停止Hadoop集群中的任务3. MR程序扩展4. Shuffle过程5. Hadoop序列化机制6. InputFormat分析7. O原创 2021-04-23 16:35:59 · 515 阅读 · 0 评论 -
大数据开发-学习记录与要点思考-第二章 HDFS使用
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、HDFS介绍二、HDFS的Shell操作1. HDFS的shell2. 常见的操作命令三、Java代码操作HDFS1. Maven项目管理工具安装2. 添加Hadoop依赖3. Java代码实现HDFS操作四、HDFS核心进程1. NameNode2. Secondary原创 2021-03-30 20:18:30 · 241 阅读 · 0 评论 -
大数据开发-学习记录与要点思考-第一章 Hadoop集群搭建
第一章 Hadoop集群搭建hadoop 伪分布集群、分布式集群搭建、客户端节点文章目录第一章 Hadoop集群搭建前言一、什么是Hadoop1. Hadoop安装包2. 集群机器的基础环境配置2.1 静态IP2.2 主机名映射2.3 关闭防火墙2.4 ssh免密码登录2.5 Java环境2.6 解压Hadoop安装包文件二、Hadoop 三大组件1. HDFS2. MapReduce2.1 Map2.2 Reduce3. YARN三、Hadoop伪分布集群安装1. 伪分布架构2. hadoop相关原创 2021-03-17 23:39:40 · 193 阅读 · 0 评论 -
大数据开发-学习记录与要点思考-第零章 Mac上的虚拟机安装与配置
大数据开发体系课程-学习记录与要点思考第零章 Mac上的虚拟机安装与配置前言一、在Mac上应该安装哪个版本的VMware二、下载CentOS-7系统的iso文件1.官网2.国内镜像3.CentOS-7-DVD-1908版本三、创建虚拟机1. 打开VMware总结新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学原创 2021-03-09 23:34:26 · 240 阅读 · 0 评论