大数据
文章平均质量分 67
大数据学习
keys_7
这个作者很懒,什么都没留下…
展开
-
HBase 搭建
HBase 分布式搭建节点节点nn dn zk mast bk-mast reg-sernndnzkmastbk-mastreg-sernode1✔️✔️✔️✔️✔️node2✔️✔️✔️✔️✔️node3✔️✔️✔️node3✔️原创 2021-02-02 10:48:55 · 87 阅读 · 0 评论 -
Hive 高可用搭建
Hive 高可用搭建节点配置文件hive-site.xml (node2)hive-site.xml (node3)节点NN-1NN-2DNZKZKFCJNNRSNMHiveserver2beelinenode1✔️✔️✔️✔️✔️node2✔️✔️✔️✔️✔️✔️✔️✔️node3✔️✔️✔️✔️✔️node4✔️✔️✔️配置文件hive-site.xml (原创 2021-02-01 20:26:24 · 193 阅读 · 0 评论 -
Hive语法
HiveDDL创建表创建外部表DML导入数据查询删除表DDL官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL创建表create table psn(id int,name string,hobby array<string>,address map<string, string>)row format delimitedfields terminated by ','原创 2021-01-31 07:46:32 · 108 阅读 · 0 评论 -
Hive 搭建
Hive 部署安装 mysql修改权限单用户模式配置环境变量配置文件hive-site.xml将 mysql 驱动包 放入 lib 目录中运行 hive测试多用户模式将 node2 的 hive 拷贝到 node3、node4配置 node3、node4 的环境变量node3 配置文件修改hive-site.xmlnode4 配置文件修改hive-site.xml启动node3node4测试安装 mysql在 node1 安装 mysqlyum install mysql-serverservice原创 2021-01-29 21:57:34 · 92 阅读 · 0 评论 -
Hive SQL
Hive SQL数据类型primitive_typeprimitive_typeDDLDML数据类型primitive_typearray_typemap_typestruct_typeprimitive_typeTINYINTSMALLINTINTBIGINTBOOLEANFLOATDOUBLESTRINGDDL官网传送门DML官网传送门原创 2021-01-22 15:48:30 · 54 阅读 · 0 评论 -
yarn 集群搭建
yarn 集群搭建集群节点分配方案配置文件mapred-site.xmlyarn-site.xml将配置文件分发到 node2、node3启动步骤基于HA 集群搭建HA集群搭建集群节点分配方案NN-1NN-2DNZKZKFCJNNRSNMnode1✔️✔️✔️✔️✔️node2✔️✔️✔️✔️✔️✔️✔️node3✔️✔️✔️✔️配置文件mapred-site.xml<configurati原创 2021-01-22 14:48:00 · 166 阅读 · 0 评论 -
Hive 简介
HiveHive 简介HIve 架构OperatorANLTER 词法语法分析工具解析 hql搭建模式1.本地模式2.单用户模式3.远程服务器模式Hive 简介Hive:数据仓库。(分析、储存、录入历史数据,做内部分析使用。)Hive:解释器,编译器,优化器 等。Hive:运行时,元数据存储在关系型数据库里面。HIve 架构用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至H原创 2021-01-22 14:26:19 · 185 阅读 · 0 评论 -
WordCount程序实现(idea)
WordCount程序实现(idea)开发环境pom.xml文件WordCountMyMapperMyReducer运行运行创建文件夹新建单词统计文件上传文件执行 WordCount 工作查看执行结果开发环境JDK 1.8IDEA 2020.3.1HADOOP 2.10.1pom.xml文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0"原创 2021-01-19 12:46:56 · 270 阅读 · 0 评论 -
MapReduce
MapReduceMapReduce工作原理mapreduceMapReduce分布式数据处理工具、分布式计算处理框架MR 主要思想:分久必合,合久必分。MR 架构 ---- kv 格式(key + value)工作原理map假设 计算的数据都在 hdfs 上,从 hdfs 获取数据进行计算 – 寻找需要计算的位置map 会将 hdfs 上的大文件进行相应的切割 ---- 切割成一个个的 split 切片(默认大小与 block 大小一致)---- block = map = mapt原创 2021-01-10 19:19:07 · 119 阅读 · 1 评论 -
HA 集群搭建
HA 集群搭建集群分配方案配置hdfs-site.xml集群分配方案NN-1NN-2DNZKZKFCJNNnode1✔️✔️✔️node2✔️✔️✔️✔️✔️node3✔️✔️✔️node4✔️✔️HA 状态下:当处于 active 状态的节点挂掉之后,standby 状态的节点自动接替任务,转为 active 状态,对外提供服务。当挂掉的节点重新恢复之后,他不会再恢复成 active 状态,保持原创 2021-01-06 22:23:57 · 270 阅读 · 0 评论 -
联邦
联邦联邦特点联邦联邦 ---- 解决性能瓶颈 ---- 每台服务器都是有性能极限的。正常情况下,每一个集群都只有一个 NN 处于 active 状态,只会有一个 namespace。特点NN 都处于 active 状态,相互隔离无通信。多个 NN 通过 clusterID 建立连接。当元数据信息一个 NN 已经无法存储了,超过了他的一个上限,即使用联邦。我们不使用联邦的原因 ---- 极小的概率会造成 NN 存储不了。联邦中,每一个 NN 自成个体,也就是说 namenode 是单独的,他原创 2021-01-06 16:29:24 · 72 阅读 · 0 评论 -
高可用集群 HA(原理)
高可用集群 HA单点故障集群信息zookeeper单点故障为了解决单点故障,采用两个 NN 进行管理,但是两个 NN 不能同时处于活跃状态。一个 active 一个 standby (相当于 班长(active) 副班长(standby))。集群信息动态信息:DN 向 NN 发送的 心跳信息 ---- DN 会向两个 NN 同时发送信息。静态信息:客户端产生的信息,即 元数据(block数,块大小,偏移量等等)。静态信息同步(client 只会服务于一个 NN)需要一个第三者来同步 两个原创 2021-01-06 16:12:31 · 194 阅读 · 0 评论 -
HDFS 集群 搭建
HDFS 集群安装基础环境hadoop 2.10.1jdk1.8分发集群配置免密登陆添加用户更改hostnamehosts配置免密(三台重复)Hadoop安装配置 `etc/hadoop/hadoop-env.sh `配置 `etc/hadoop/core-site.xml `配置 `etc/hadoop/hdfs-site.xml `配置 `etc/hadoop/mapred-site.xml `配置 `etc/hadoop/yarn-site.xml`配置环境变量格式化文件系统分发Python安装Had原创 2021-01-05 12:00:09 · 199 阅读 · 0 评论 -
Hadoop生态圈(原理)
Hadoop生态圈(理论)HDFSblock读写操作写操作具体实现读操作备份机制任务提交方式如何备份Pipeline(写操作+备份机制)HDFS分布式文件系统 ---- 存储block大文件切割成块(block),分散存储在集群中。单一文件的 block 块大小一致,不同文件可以不一样。(最后一块128M没存满,还是128M)为了安全----机制(副本机制)。追加数据 ---- append (只在尾部追加数据)。只支持一次写入多次读取,同一时刻只有一个写入者。读写操作写操作na原创 2021-01-04 22:34:08 · 201 阅读 · 0 评论