Hive
3分钟秒懂大数据
互联网大厂工作人员、专注于 Flink、Spark、ElasticSearch、Clickhouse、Kafka、Hadoop、Hive、Hbase 等技术组件的研究和分享,提供实时数仓、离线数仓、数据湖等最前沿的技术博客!
展开
-
Hive原理及安装(大数据学习17)
1.Hive基本概念 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。1.1.为什么使用Hive 直接使用hadoop所面临的问题人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大 使用Hive操作接口采用类SQL语法,提供快速开发的能力。 避免了去写Ma...原创 2019-03-16 16:09:30 · 751 阅读 · 0 评论 -
Hive SQL总结(大数据学习18)
一. HIVE启动的两种方式 :1 直接启动 2 Hive thrift服务1 Hive 直接启动: 找寻你所安装的hive文件下的hive驱动 我的驱动是在apps/apache-hive-1.2.1-bin/hive 下 执行驱动就可以将hive启动起来[hadoop@mini1 ~]$ cd apps/apache-hive-1.2.1-bin/[hadoop@mini...原创 2019-03-17 12:58:39 · 29967 阅读 · 0 评论 -
Hive 分桶介绍(大数据学习19)
1、order by 会对输入做全局排序,因此只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。2、sort by不是全局排序,其在数据进入reducer前完成排序。因此,如果用sort by进行排序,并且设置mapred.reduce.tasks>1,则sort by只保证每个reducer的输出有序,不保证全局有序。3、distribute by(字段)根据指...原创 2019-03-17 21:47:25 · 260 阅读 · 0 评论 -
Hive内置运算函数,自定义函数(UDF)和Transform(大数据学习20)
当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF(UDF:user defined function).自定义函数类别UDF 作用于单个数据行,产生一个数据行作为输出。(数学函数,字符串函数)UDAF(用户定义聚集函数):接收多个输入数据行,并产生一个输出数据行。(count,max)UDF开发实例:客户需求:现有一个json...原创 2019-03-18 12:55:20 · 487 阅读 · 0 评论