大数据
文章平均质量分 86
march of Time
程序媛一枚
展开
-
元数据管理gravitino学习
业界一直希望统一元数据,从而实现多产品间的一致体验:无论是数据开发、数据消费还是数据治理,所有用户都能基于一套元数据体系,可以在多个数据源和计算引擎之间建立联系,使用统一的服务来公开这些元数据。因为它提供了一个统一的元数据湖,标准化了数据目录操作,并统一了所有元数据管理和治理。“元数据湖”:在gravitino出现之前,业界还没有一个统一的“元数据湖”的组件,不同于数据湖,gravitino提出了“元数据湖”的概念,通过提供一个丰富的数据目录,Gravitino使得数据湖中的资源更加易于导航和理解。原创 2024-08-20 11:19:01 · 686 阅读 · 0 评论 -
spark入门学习:spark SQL
Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息来执行额外的优化。与Spark SQL交互的方式有多种,包括SQL和Dataset API。计算结果时,使用相同的执行引擎,与您用于表达计算的API/语言无关。为什么要有SPARK SQL:1)发展历史。原创 2024-08-09 12:09:29 · 885 阅读 · 0 评论 -
spark入门学习:简介和基本原理
Apache spark是一个围绕速度、易用性和复杂分析构建的大数据计算框架。Scala是函数式语言,适合数据处理编程,并且其运行在 JVM 之上,可利用java生态资源。Akka基于Actor模型,提供了一个用于构建可扩展的(Scalable)、弹性的(Resilient)、快速响应的(Responsive)应用程序的平台。spark在1.6.0之后使用Netty替代了Akka,Netty基于Reactor线程模型,具有无锁化的串行设计,高效的序列化,零拷贝,内存池等特性。原创 2024-08-08 11:50:34 · 792 阅读 · 0 评论 -
大数据hive表和iceberg表格式
iceberg表,是一种面向大型分析数据集的开放表格式,旨在提供可扩展、高效、安全的数据存储和查询解决方案。它支持多种存储后端上的数据操作,并提供 ACID 事务、多版本控制和模式演化等特性,使数据管理和查询更加灵活便捷。Iceberg 可以屏蔽底层数据存储格式上的差异,向上提供统一的操作 API,使得不同的引擎可以通过其提供的 API 接入。原创 2024-07-15 11:13:28 · 1437 阅读 · 0 评论 -
kerberos认证:生成keytab文件并实现java代码用keytab登录hadoop集群
用户首先向认证服务器(AS)请求一个票据授权票(Ticket-Granting Ticket, TGT),然后使用 TGT 向票据授权服务器(Ticket-Granting Server, TGS)请求服务票据。Kerberos 是一种网络认证协议,用于在不安全的网络中以安全的方式对用户和服务进行身份验证。AS 是 Kerberos 认证过程中的第一个服务,负责验证用户的身份,并发放初始的 TGT。TGS 负责发放访问特定服务的票据。用户使用服务票据向目标服务进行认证,服务票据授权用户访问特定的服务。原创 2024-06-26 16:15:22 · 567 阅读 · 0 评论