自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 【Hive】查询&函数

distribute by一般都和sort by一起使用,因为单独使用distribute by的话就只分区不排序,这样得到的每个文件都是无序的,而只使用sort by的话分区就不能指定,只能让输出的每一个文件都按照我们指定的字段进行排序。因为在底层其实是一个mr程序,几个map分别对数据进行排序,然后汇入reduce,又由于order by是全局排序,所以最后处理的数据一定会只进入一个reduce中,此时如果数据量很大的话,reduce就很可能会出现问题,所以在使用排序时最好别直接用。

2023-09-24 23:52:48 109 1

原创 【Hive】服务部署和HQL

注意:若客户端或者hiveserver2等连接metastore服务的节点中,hive-stie.xml文件里即包含连接metastore服务的参数,又包含直接连接MySQL的参数,那么只会看连接metastore服务的参数,即此时还是独立运行模式,假如部署了metastore服务的节点未开启metastore服务,那么客户端或者hiveserver2即使进入了hive也同样无法使用hive sql。模拟用户的功能,默认是开启的。因此,需要将hiveserver2的启动用户设置为Hadoop的代理用户。

2023-09-17 20:38:36 98 1

原创 【Hive】概述

Hive是由Facebook开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。将复杂的mr程序简化为hive sql,只使用一行代码就能实现与冗长的mr程序一样的效果,简单方便,易于理解。Hive是一个Hadoop客户端,用于将HQL(Hive SQL)转化成MapReduce程序。Hive中每张表的数据存储在HDFSHive分析数据底层的实现是MapReduce(也可配置为Spark或者Tez)执行程序运行在Yarn上。

2023-09-10 21:04:34 109 1

原创 尚硅谷hadoop3.x-Yarn

ReduceTask从MapTask拉取对应分区的数据开始处理,当所有的ReduceTask都运行完毕,MrAppMaster便会向RM申请释放资源,即刚刚产生的所有东西包括自己全都释放掉。可以发现,容量调度器有的公平调度器全都有,而且公平调度器还有容量调度器没有的。由于容量调度器的队列的资源分配方式默认是FIFO,如果将公平资源调度器的队列的资源分配方式设置成FIFO,那么此时公平调度器就相当于是容量调度器。实际上大体和上面的Yarn工作机制差不多,之不多在开始和结束多了与HDFS的交互,即输入输出。

2023-08-06 18:39:28 196

原创 尚硅谷hadoop3.x-MapReduce(4)

压缩的优点:以减少磁盘IO、减少磁盘存储空间。压缩的缺点:增加CPU开销。运算密集型的Job,少用压缩IO密集型的Job,多用压缩。

2023-07-30 23:24:28 63 1

原创 尚硅谷hadoop3.x-MapReduce(3)

MapReduce包括Input、Mapper、Reducer和Output四个阶段,其中Mapper和Reducer之间的数据混洗的阶段称作Shuffle,且Shuffle包括分区、排序和Combiner。

2023-07-30 23:22:23 176 1

原创 尚硅谷hadoop3.x-MapReduce(2)

在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在 Hadoop 框架内部 传递一个 bean 对象,那么该对象就需要实现序列化接口。必须实现 Writable 接口反序列化时,需要反射调用空参构造函数,所以必须有空参构造重写序列化方法@Override重写反序列化方法注意反序列化的顺序和序列化的顺序完全一致(upFlow、downFlow和sunFlow的顺序)!!!要想把结果显示在文件中,需要重写 toString(),可用"\t"分开,方便后续用。

2023-07-23 22:31:28 64

原创 尚硅谷hadoop3.x-MapReduce(1)

易于编程它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。就是因为这个特点使得MapReduce编程变得非常流行。良好的扩展性当你的计算资源不能得到满足的时候,你可以通过简单的增加机器来扩展它的计算能力。高容错性MapReduce 设计的初衷就是使程序能够部署在廉价的 PC 机器上,这就要求它具有很高 的容错性。

2023-07-23 22:27:10 166

原创 尚硅谷hadoop3.x-HDFS(2)

注意:hdfs写数据时是将全部块给dn1,然后再由dn1依次传给剩余的节点。同时会产生一个ack队列,用于接收下一端是否应答成功。都应答成功后其存储的数据才会删除,否则把未应答的数据的重新塞给发送数据的packet队列。

2023-07-16 22:16:04 54 1

原创 尚硅谷hadoop3.x-HDFS(1)

NameNode(nn):就是Master,它 是一个主管、管理者。NameNode是HDFS中的主节点,负责管理整个文件系统的命名空间和元数据。它记录了文件和数据块的映射关系,并维护了文件系统的目录结构。NameNode还负责处理客户端的读写请求,指导数据节点进行数据的读写操作。由于NameNode存储了整个文件系统的元数据,因此它需要足够的内存和计算资源来支持大规模数据集。DateNode(dn):就是Slave。NameNode 下达命令,DataNode执行实际的操作。

2023-07-16 22:13:06 348 1

原创 尚硅谷Hadoop3.x-入门(2)

总的来说,配置集群的步骤为:配置模板机 -> 克隆虚拟机 -> 配置完全分布式运行模式其中:配置模板机:新建虚拟机并配置root用户和主机名 -> 配置IP地址、设置hosts文件 -> 安装epel-release -> 测试网络 -> 关闭防火墙及其自启动 -> 安装jdk和hadoop克隆虚拟机:克隆虚拟机 -> 更改主机名和IP地址。

2023-07-09 17:23:02 376

原创 尚硅谷hadoop3.x-入门(1)

HDFS,Hadoop Distributed File System,即Hadoop分布式文件系统。NameNode (nn) :存储文件的元数据,如文件名文件目录结构文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。每隔一段时间对NameNode元数据备份。总而言之:Datanode是用来存放数据的,而Namenode就是类似于一个目录,记录了数据存放位置的信息。

2023-07-09 17:21:58 119 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除