大数据原理与应用
文章平均质量分 90
Hadoop入门篇合集
「已注销」
这个作者很懒,什么都没留下…
展开
-
Hadoop HA高可用 学习笔记(一) HDFS-HA 手动、自动模式 | YARN-HA 自动模式 | 模拟宕机故障 | HA-基于Zookeeper
HA 概述HA,即High Availablity,高可用,指的是集群能7 * 24 小时不中断服务。实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。NameNode主要在以下两个方面影响HDFS集群:NameNode机器发生以外,如宕机,集群将无法使用,直到管理员重启NameNode机器需要升级,包括软件、硬件升级,此时集群也将无法使用HDFS HA 功能通过配置多个NameNodes(Activity / Standby)实现原创 2022-04-06 19:27:15 · 1305 阅读 · 0 评论 -
Hive 学习笔记(四)案例实操 | 统计影视网站的常规指标,各种 TopN指标 | 观看数Top10 |explode 炸裂统计视频类别的观看数 | 嵌套子查询
在使用Hive写SQL语句时,需注意over窗口函数的使用,里面包含partition分区概念,groupby 分组概念。还有`lateral view`的用法需要多熟悉熟悉。在处理业务时,先写简单的SQL语句,一般用嵌套子查询或者JOIN进行表关联。这里只用到了MR计算引擎,其实Tez引擎和Spark引擎都比MR快得多,这里由于在配置时遇到了BUG就没有切换。留个坑,之后再试试用不同的引擎对查询的性能进行简单的比较。原创 2022-04-04 17:10:47 · 2434 阅读 · 0 评论 -
Hive 学习笔记(三) 使用Java实现自定义SQL函数 | Hive三大类型函数的简要区分 UDF、UDAF、UDTF
若发现文章有误,敬请指出,感谢文章目录一、运行环境二、Hive的内置函数三、自定义UDF函数3.1 编写代码实现自定义的Hive函数3.2 打包成jar包,发布到集群节点,进行测试四、自定义UDTF函数4.1 编写代码4.2 测试参 考 资 料一、运行环境VmwareCentOS 7 操作系统JDK 8MySQL8Hadoop3.3.0(单节点)HIve 3.1.2 on YARNMaven 3.8.4IDEA 2021.3 旗舰版节点分配:其中MySQL和H.原创 2022-03-26 14:11:56 · 2314 阅读 · 0 评论 -
Hive 学习笔记(二)使用窗口函数over实现电商常见五个需求| 查询某个时期购买过的顾客以及总人数| 顾客购买明细以及总额 | 按照日期对花费进行累加 |查询顾客上次购买时间 | 查询前20%时间
若发现文章有误,敬请指正,感谢文章目录参考资料一、运行环境二、准备测试数据三、OVER() 窗口函数需求一:查询在某年某月购买过商品的顾客以及总人数需求二:查询顾客的购买明细以及月购买总额需求三:将每个顾客的花费按照日期进行累加3.1 按名称分组统计花费3.2 按名称分组,并按消费日期累加3.3 在上一个基础上,添加由起点到当前行的聚合需求四:查看顾客上次的购买时间需求五:查询前20%时间的订单信息参考资料视频链接一、运行环境VmwareCentOS 7 操作系统JDK 8M.原创 2022-03-25 21:15:22 · 3667 阅读 · 0 评论 -
Hive 学习笔记(一) DDL数据定义操作常用命令 | 增删改查数据库、数据表、列
DDL 数据定义操作数据库DDL操作增参考资料标准语法:CREATE [REMOTE] (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [MANAGEDLOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)];参数说明:参数描述原创 2022-03-23 19:30:19 · 2375 阅读 · 0 评论 -
Hadoop | MapReduce学习笔记 | Partitioner分区 自定义分区策略案例 | WritableComparable 全排序 | Combiner、OutputFormat
默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。对于MapTask,它会将处理的结果暂时放到环形缓冲区,当环形缓冲区使用率达到一定阈值后,再对缓冲区中的数据进行一次**快速排序**,并将这些有序数据溢写到磁盘上,而当数据处理完毕后,它会对磁盘上所有文件进行 **归并排序**。对于ReduceTask,它从每个MapTask上远程拷贝响应的数据文件,如果文件大小超过一定阈值,则溢写到磁盘上,否则存储在内存中。如果磁盘上文件数目达到一定阈值,则进行一次合并后将数据溢写到磁盘上。当所有数据拷贝完原创 2022-02-13 22:09:51 · 762 阅读 · 0 评论 -
Hadoop | MapReduce学习笔记 | JavaAPI更换切片机制 | CombineTextInputFormat 切片 | 词频统计案例
文章目录一、参考资料二、运行环境三、CombineTextInputFormat 切片机制四、词频统计4.1 Mapper4.2 Reducer4.3 Driver 驱动类(关键)五、总结一、参考资料视频链接二、运行环境windows 10JDK 8Hadoop 3.1.3 windows版IDEA三、CombineTextInputFormat 切片机制Hadoop框架默认的TextInputFormat切片机制是对任务按文件规划切片,不管文件多小,都会作为一个单独的切片,都会原创 2022-02-06 22:39:38 · 871 阅读 · 0 评论 -
Hadoop | MapReduce学习笔记(二)Hadoop序列化操作 | 案例 | 封装map和reduce操作的value类型
Hadoop | MapReduce编程 | Hadoop序列化操作 | 案例原创 2022-01-20 16:29:52 · 1212 阅读 · 0 评论 -
Hadoop | MapReduce学习笔记(一)使用Java实现MapReduce编程 | 打包词频统计程序为jar包提交到Hadoop集群并运行 | Mapper、Reducer、Driver
Hadoop | MapReduce学习笔记(一)使用Java实现MapReduce编程 | 打包词频统计程序为jar包提交到Hadoop集群并运行 | Mapper、Reducer、Driver原创 2022-01-19 16:17:47 · 4365 阅读 · 0 评论 -
Hadoop | HDFS 学习笔记(三)HDFS 读写流程 | NN、2NN、DN 工作机制 | FsImage与Edits的合并
Hadoop3.1.3版本,关于HDFS的第三篇学习笔记,记录了NN、2NN、DN的工作机制,包括NN中Fsimage和Edits的合并机制,还有如何使用命令查看它们的内容原创 2022-01-18 16:07:26 · 1292 阅读 · 0 评论 -
Hadoop | HDFS 学习笔记(二)HDFS Java API 环境搭建 | Java操作HDFS文件系统 | 多案例
文章目录参考资料运行环境一、准备 HDFS Java API 环境1.1 在windows系统中准备Hadoop环境1.2 使本机连接集群节点1.2.1 域名映射1.2.2 路由转发1.3 使用 IDEA 创建 Maven 项目二、HDFS Java API 操作案例2.1 创建文件夹2.2 上传文件2.3 下载文件2.4 删除文件2.5 文件的更名和移动2.6 获取HDFS文件信息2.7 文件与文件夹的判断2.8 HDFS - API 配置参数优先级问题2.8.1 通过配置文件2.8.2 通过Config原创 2022-01-17 18:30:46 · 3457 阅读 · 2 评论 -
Hadoop | HDFS学习笔记(一)HDFS优缺点、NN+DN+2NN组成架构、block文件块 | Shell操作 | HDFS常用命令汇总
参考资料视频资料一、HDFS 背景以及定义背景: 数据量越来越大,操作系统存不了所有数据,需要能管理多台机器上的文件的系统,即分布式文件管理系统,HDFS就是其中的一种。定义: HDFS,全称 Hadoop Distributed File System,是一个文件系统,通过 目录树 来定位文件,具有分布性,是由多个服务器联合起来实现的存储功能。适用场景:一次写入,多次读出。 即一个文件经过创建、写入和关闭后就不需要改变的情况。二、HDFS 优缺点2.1 优点高容错性: 数据自动保原创 2022-01-17 13:54:28 · 2205 阅读 · 0 评论 -
Hadoop | 集群配置(四)启动测试完全分布式集群 | 编写 Shell 脚本一键启动集群 | Hadoop 集群常用脚本
参考资料视频资料运行环境windows10CentOS 7 虚拟机JDK8Hadoop3.1.33个集群节点一、集群的不同启动方式1.1 各模块分开启动(常用)(1)各个模块分开启动/停止(配置ssh是前提)常用整体启动/停止 HDFSstart-dfs.sh/stop-dfs.sh(2)整体启动/停止YARNstart-yarn.sh/stop-yarn.sh1.2 各个服务组件逐一启动/停止(1)分别启动/停止HDFS组件hdfs --daemon s原创 2022-01-16 19:43:34 · 712 阅读 · 0 评论 -
Hadoop | 集群配置(三)完全分布式集群规划 | 配置详情
参考资料视频链接厦大实验室运行环境JDK8hadoop3.1.33个集群节点,分别为hadoop101、hadoop102、hadoop103hadoop 1.x到2.x的升级解决问题:组件Hadoop1.x的问题Hadoop 2.x的改进HDFS单一名称节点,存在单点失效问题设计了HDFS HA,提供名称节点热备机制HDFS单一命名空间,无法实现资源隔离设计了 HDFS Federation,管理多个命名空间MapReduce资源管理原创 2022-01-16 15:23:46 · 1535 阅读 · 0 评论 -
Hadoop | 集群配置(二)SSH免密登陆原理以及操作 | 公钥与私钥
参考资料视频资料一、原理分析SSH ,全称SecureShell ,中文称为安全外壳协议。百度百科SSH免密登陆原理图:ssh免密登陆最常用的一种加密算法是:rsa算法:[百度百科],本篇文章是基于该算法进行免密登陆的。首先通过原理图可以总结出以下几个要点:(以服务器A SSH免密登陆 服务器B 为例)A 生成密钥对,即公钥A和私钥AA将自己的公钥A发送给B此时B将公钥A保存在~/.ssh下的 authorized_keys 文件中当A向B发送ssh远程连接时,A将通过私钥A加原创 2022-01-15 21:57:26 · 2170 阅读 · 0 评论 -
Hadoop | 集群配置(一)使用Shell脚本解决完全分布式集群节点之间的文件传输问题 | scp命令 | rsync命令
文章目录参考资料一、前言二、rsync 远程同步工具三、使用 shell 编写分发脚本四、总结参考资料视频链接Linux scp命令一、前言在Hadoop完全分布式集群环境下,里面的各个节点都是通过 SSH免密登陆 连接的,比如现有三台集群节点,分别是 hadoop101、hadoop102、hadoo103。hadoop101节点可以通过 ssh命令连接到hadoop102,即:ssh hadoop102那么,除了远程登陆以外,还有其他的作用吗?当然有的,比如远程传输文件:sc原创 2022-01-15 20:40:47 · 1453 阅读 · 0 评论 -
大数据工程实践v1.0版本 | (一)环境搭建 (1) | 统一配置hadoop3.1.3完全分布式集群三个节点
文章目录1. 运行环境2. 各节点角色分配3. 集群配置清单4. 具体配置4.1 hadoop-env.sh4.2 hdfs-site.xml4.3 mapred-site.xml4.4 yarn-site.xml4.5 yarn-site.xml4.6 core-site.xml4.7 workers1. 运行环境2. 各节点角色分配 服务名称 子服务 服务器 服务器 服务器原创 2021-12-14 13:25:02 · 1034 阅读 · 0 评论 -
Hadoop集群搭建 | 使用3台CentOS7系统的虚拟机搭建Hadoop完全分布式集群多节点的纯净系统
笔记:unirithe日期:11/13/2021注:本篇博文不涉及Hadoop节点的配置运行环境Windwos10操作系统VMware Workstation 15.5 Pro (网上有许多资源,下载过程略过)CentOS7虚拟机系统文章目录运行环境一、创建并配置虚拟机二、配置CentOS7系统2.1 设置语言2.2 设置GNOME桌面环境2.3 手动配置系统的分区2.4 配置网络和主机名2.5 创建系统用户和密码三、配置虚拟机网络3.1 VMware工具修改网络配置3.2 配置Window原创 2021-11-13 22:43:18 · 2435 阅读 · 0 评论 -
Hadoop集群搭建 | 基于Docker搭建3节点的Hadoop完全分布式集群
参考资料:http://dblab.xmu.edu.cn/blog/1233/注:本篇博文的实验需要一个具有Hadoop集群环境的Docker镜像。文章目录运行环境1. 使用Docker开启三个容器*2. 配置ip映射 测试ssh3. 修改Hadoop的配置文件3.1 hadoop-env.sh3.2 core-site.xml3.3 hdfs-site.xml3.4 mapred-site.xml3.5 yarn-site.xml3.6 workers3.6 复制配置文件3.7 检验配置文件是否复制成原创 2021-10-13 10:01:32 · 640 阅读 · 0 评论 -
【Hadoop】基于Docker搭建集群环境
Docker-Hadoop集群文章目录Docker-Hadoop集群1. Hadoop完全分布式集群步骤总结2. 集群环境前的准备2.1 安装 Vim 更新 APT2.2 安装网络配置工具 & wget工具2.3 安装 SSH设置无密码登陆2.4 安装 JDK2.5 安装 Mysql3. 准备集群必要组件版本说明3.1 安装 Hadoop3.2 安装 HBase3.3 安装 Hive3.4 安装 Kafka3.5 安装 Flume3.6 保存当前容器为镜像1. Hadoop完全分布式集群步骤总结原创 2021-10-13 09:49:23 · 236 阅读 · 0 评论 -
Hadoop | 基于Java语言的MapReduce操作案例 | 词频统计
运行环境:Ubuntu 16.04Hadoop3.1.3Jdk8Eclipse 3.8.0Hadoop伪分布式环境文章目录1. 启动Hadoop集群2. 用eclipse创建java程序,导入jar包2.1 编写Java程序并编译运行:2.2 导出jar包3. 上传测试文本到Hdfs4. 测试运行jar包1. 启动Hadoop集群$ start-all.sh检查hdfs是否启动成功$ hdfs dfs -ls /2. 用eclipse创建java程序,导入jar包导入相关的ja.原创 2021-05-09 14:09:34 · 968 阅读 · 0 评论