- 博客(11)
- 收藏
- 关注
原创 在服务器上搭建hadoop,踩坑记录(无法
不是这里的问题就去看看 Hadoop的那几个核心文件里面有没有配对,比如 core-site.xml ,hdfs-site.xml 等里面的web端口号是否写对了。4、注意在服务器上面搭建Hadoop和自己主机的虚拟机上面搭有一处不一样,需要开启端口号的安全组和防火墙,详细的看这个博主的。举个栗子:firewall-cmd --permanent --add-port=9870/tcp。如果上面的都是对的还是访问不了,直接看Hadoop下logs里面的日志,查看原因。
2024-04-25 21:16:34 785 3
原创 HIVE(三)+ 教育项目
根据用户自定义函数类别分为以下三种:1UDF一进一出2UDAF聚集函数,多进一出类似于:3UDTF一进多出如编程步骤:1)继承Hive提供的类2)实现类中的抽象方法3)在hive的命令行窗口创建函数。
2023-12-31 21:00:00 886 1
原创 HIVE(二)
Hive 默认使用的元数据库为 derby,开启 Hive 之后就会占用元数据库,且不与其他客户端共享数据,只能使用一个客户端,所以我们需要将 Hive 的元数据地址改为 MySQL。Hive数据存放在HDFS中,默认路径:/user/hive/warehouse/test 使用 MapReduce 进行计算。在很多情况下,并不需要全局排。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区,这样的查询效率。
2023-12-25 22:18:45 816 1
原创 Hadoop补充+hive
Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。1) ResourceManager (RM) 主要作用如下(1)处理客户端请求(2)监控NodeManager(3)启动或监控Appl icationMaster(4)资源的分配与调度。
2023-12-11 22:43:41 849 1
原创 Hadoop(四)
bean对象做为key传输,需要实现WritableComparable接口重写compareTo方法,就可以实现排序。排序分类(1)部分排序MapReduce根据输入记录的键对数据集排序。保证输出的每个文件内部有序。(2)全排序.最终输出结果只有一个文件,文件内部有序。实现方式是只设置一个ReduceTask。但该方法在处理大型文件时效率极低,因为- -台机器处理所有文件,完全丧失了MapReduce所提供的并行架构。
2023-12-03 20:32:02 954 1
原创 Hadoop(三)
MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。易于编程,用户只关心业务逻辑。实现框架的接口良好的扩展性:可以动态的增加服务器,解决计算资源不够的问题。高容错性:任何一台挂掉,可以将任务转移到其他节点适合海里数据计算(TB/PB)几千台服务器共同计算。不擅长实时计算。
2023-11-26 23:08:12 923 1
原创 Hadoop(二)
HDFS定义:HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。HDFS优点:1)高容错性➢数据自动保存多个副本。它通过增加副本的形式,提高容错性。某一个副本丢失后,它可以自动恢复。2)适合处理大数据。
2023-11-19 21:39:00 70
原创 Hadoop (一)
(a)在hadoop102上,将hadoop102中/opt/module/jdk1.8.0_212目录拷贝到hadoop103上。(b)在hadoop103上,将hadoop102中/opt/module/hadoop-3.1.3目录拷贝到hadoop103上。2) DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
2023-11-12 19:53:51 62
原创 Linux命令补充及Shell编程
1、概述:YUM (全称为Yellow dog Updater, Modified) 是一个在Fedora和RedHat以及CentOS中的Shell 前端软件包管理器。基于RPM包管理,能够从指定的服务器自动下载RPM包并且安装,可以自动处理依赖性关系,并且一次安装所有依赖的软件包,无须繁琐地一次次下载,安装。2、YUM的常用命令基本语法:yum [选项] [参数]选项说明: -y (功能:对所有问题都回答“yes”)参数功能install安装rpm软件包update更新rpm软件包。
2023-11-05 20:12:50 116
原创 Linux
Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 UNIX 的多用户、多任务、支持多线程和多 CPU 的操作系统。Linux 能运行主要的 UNIX 工具软件、应用程序和网络协议。它支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。
2023-10-29 21:45:52 107
原创 MySQL 函数-事务-引擎-索引
索引(index)是帮助MySQL高效获取数据的数据结构(有序)。在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构,上实现高级查找算法,这种数据结构就是索引。
2023-10-22 17:28:34 86 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人