hive
文章平均质量分 71
长弓霄
这个作者很懒,什么都没留下…
展开
-
大数据开发之Hive SQL优化思路分享
Hive的优化主要分为:配置优化、SQL语句优化、任务优化等方案。其中在开发过程中主要涉及到的可能是SQL优化这块。优化的核心思想是:减少数据量(例如分区、列剪裁)避免数据倾斜(例如加参数、Key打散)避免全表扫描(例如on添加加上分区等)减少job数(例如相同的on条件的join放在一起作为一个任务)HQL语句优化1、使用分区剪裁、列剪裁在分区剪裁中,当使用外关联时,如果将副表的过滤条件写在Where后面,那么就会先全表关联,之后再过滤。select a.*from test1 alef原创 2022-04-13 14:44:40 · 338 阅读 · 0 评论 -
Hive很重要的知识点,要掌握的
1、Hive是一种建立在Hadoop文件系统上的数据仓库架构,并对存储在HDFS中的数据进行分析和管理;(也就是说对存储在HDFS中的数据进行分析和管理,我们不想使用手工,我们建立一个工具把,那么这个工具就可以是hive)2、 hive建表语法中的分隔符设定ROW FORMAT DELIMITED 分隔符设置开始语句FIELDS TERMINATED BY:设置字段与字段之间的分隔符COLLECTION ITEMS TERMINATED BY:设置一个复杂类型(array,struct)字段的各个原创 2022-03-01 16:28:45 · 134 阅读 · 0 评论