自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 hive视图与索引

视图是纯粹的逻辑对象,没有关联的存储 (Hive 3.0.0 引入的物化视图除外),当查询引用视图时,Hive 可以将视图的定义与查询结合起来,例如将查询中的过滤器推送到视图中。在指定列上建立索引,会产生一张索引表(表结构如下),里面的字段包括:索引列的值、该值对应的 HDFS 文件路径、该值在文件中的偏移量。删除视图时,如果被删除的视图被其他视图所引用,这时候程序不会发出警告,但是引用该视图其他视图已经失效,需要进行重建或者删除。如果存在索引的表被删除了,其对应的索引和索引表都会被删除。

2024-06-06 16:07:17 683

原创 hive元数据

/指定Hive表的数据的存储位置,一般在数据已经上传到HDFS(也就是在目录已经存在,指定一下位置指向这个目录),想要直接使用,会指定Location,通常Location会跟外部表(external)一起使用,内部表一般使用默认的location。location '/data/hive' // 可选, 指定Hive表的数据的存储位置,通常跟外部表一起使用。表(Table):每个表都有相应的元数据,包括表名称、列名称、列的数据类型、分区信息、表的存储格式、表的所有者等。

2024-05-27 10:08:39 401

原创 数仓学习第一天(安装环境)

安装环境

2024-05-27 10:08:20 70

原创 数仓学习第二天(hive入门)

hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;可以将SQL语句转换为MapReduce任务运行,通过自己的SQL查询分析需要的内容,这套SQL简称Hive SQL,使不熟悉mapreduce的用户可以很方便地利用SQL语言查询、汇总和分析数据。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类sQL查询功能。

2024-05-27 10:07:33 251

原创 数仓学习第三天(数据的存储格式)

sequencefile,rcfile,orcfile格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中,然后再从表中用insert导入sequencefile、rcfile、orcfile表中。Hive支持的存储数的格式主要有:TEXTFILE(默认格式) 、SEQUENCEFILE、RCFILE、ORCFILE、PARQUET。TEXTFILE、SEQUENCEFILE 的存储格式是基于行存储的;行式存储下一张表的数据都是放在一起的,但列式存储下数据被分开保存了。

2024-05-27 10:07:21 130

原创 hive函数

Hive中的内置函数,比较简单,用到的时候可以在官网进行查询,虽然有很多内置的函数,但是生产上肯定不够那么全面,所有,用户需要自定义函数来满足自身的求。注意:执行这条语句创建永久函数,show functiuons 会加上默认的数据库名在函数名前。创建一个HelloUdf类继承UDF,并且重写evaluate方法。在Hive中给我们内置了很多函数官方地址。5 在MySQL中查询创建的自定义函数。(作者使用的IDEA进行开发的)把jar包上传到hdfs上。1 Hive的内置函数。2 Hive自定义函数。

2024-05-27 10:06:23 731

原创 hive高级操作

比如有一个 ARRAY 类型的变量 fruits,它是由['apple','orange','mango']组成,那么我们可以通过 fruits[1]来访问元素 orange,因为 ARRAY 类型的下标是从 0 开始的。1.字段 name 是基本类型,favors 是数组类型,可以保存很多爱好,scores 是映射类型,可以保存多个课程的成绩,address 是结构类型,可以存储住址信息。3.视图在创建时候,只是保存了一份元数据,当查询视图的时候,才开始执行视图对应的那些子查询。

2024-05-27 10:05:35 1408

student.py

student.py

2023-03-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除