![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
文章平均质量分 56
陆山右
志存高远 脚踏实地
观抑扬褒贬 座中常有剧中人
展开
-
Hive的UDF(用户定义普通函数)&&UDAF(用户定义聚合函数)&&UDTF(用户定义表生成函数)
1、UDF:用户定义(普通)函数,只对单行数值产生作用;继承UDF类,添加方法 evaluate() /** * @function 自定义UDF统计最小值 * @author John * */ public class Min extends UDF { public Double evaluate(Doub...转载 2018-11-13 11:13:13 · 283 阅读 · 0 评论 -
Hive支持的数据类型!基本数据类型!!复杂数据类型!!
Hive支持的数据类型分为两类,即基本数据类型和复杂数据类型.基本数据类型包括数值型、布尔型和字符串类型,复杂数据类型包括数据组(ARRAY)、映射(MAP)、结构体(STRUCT)和共同体(UNION). 其中,基础数据类型包括:TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DEC...原创 2018-11-15 18:56:39 · 2477 阅读 · 0 评论 -
DDL(Data Defined Languageshu数据定义语言) 和 DML(Data Manipulation Language数据控制语言)的区别
DDL 数据定义语言(DDL的操作存在两部分的操作:对数据库的操作、对表结构的操作) a、对数据库的操作 1、查看所有的数据库 show databases; 2、切换数据库 use 数据库名称; 3、创建数据库 create database [if not exists] 数据库名 [charset=utf...原创 2018-11-13 19:23:17 · 222 阅读 · 0 评论 -
Hive分析函数和窗口函数
1 分析函数:用于等级、百分点、n分片等Ntile 是Hive很强大的一个分析函数。可以看成是:它把有序的数据集合 平均分配 到 指定的数量(num)个桶中, 将桶号分配给每一行。如果不能平均分配,则优先分配较小编号的桶,并且各个桶中能放的行数最多相差1。语法是: ntile (num) over ([p...转载 2018-11-27 09:21:17 · 251 阅读 · 3 评论 -
hive的分析函数--rank over,Row_Number() over,dense_rank()的区别
hive中三个排序函数rank、row_number、dense_rank日常中比较常用到,今天来说说三者的区别:1、rank()函数此排序方法进行排序时,相同的排序是一样的,而且下一个不同值是跳着排序的。2、row_number()函数此方法不管排名是否有相同的,都按照顺序1,2,3…..n&nbs...转载 2018-11-27 11:38:13 · 6555 阅读 · 3 评论 -
大数据分析工具:Hive、Pig和Impala的区别!
本文主要分享Hadoop三大分析工具:Hive、Pig和Impala。Hive和Pig是高级数据语言,基于Mapreduce,底层处理的时候会转换成Mapreduce去提交,Hive和Pig都是开源的,Hive最初由Facebook开发,Pig最初由Yahoo!开发,下面进行分别介绍:一、什么是Hive?Hive可以看做是SQL到Ma...转载 2018-11-22 18:26:32 · 2159 阅读 · 2 评论 -
Hive创建表语句三种方式-----(直接创建表;查询创建表;like创建表)
版权声明:本文为博主原创文章,欢迎转载,转载请注明出处! https://blog.csdn.net/qq_36743482/article/details/78383964 注:hive其他语法在hive官网有说明,建议初学者,去官网学习一手的资料,官网:htt...转载 2018-11-28 09:03:11 · 5414 阅读 · 1 评论 -
Hive创建表常见的命令
1、创建新表create table student_hive (name string, sex string ,age int) row format delimited fields terminated by '\t';2、导入数据student_hive.txt到student_hive表load data local '/home/hairui/student_hive.t...原创 2018-11-28 09:41:57 · 5819 阅读 · 0 评论 -
手把手教您搞定用户画像(战略解读|建模体系|维度分解|应用流程)
备注:此博客为转载,链接地址请点击此处 手把手教您搞定用户画像 下面,我们就来手把手地教你,如何用敏捷可视化分析搞定用户画像。 什么是用户画像? 在互联网逐渐步入大数据时代后,不可避免的给企业及消费者行为带来一系列改变与重塑。其中最大的变化莫过于,消费者的一切行为在企业面前似乎都将是“可视化”的。随着大数据技术...转载 2018-12-03 10:19:21 · 8696 阅读 · 0 评论 -
Hive的体系结构和工作流程学习笔记
备注:此博客为转载,方便自己总结学习进步,原作者地址请点击此处HIVE是什么?Hive是hadoop上处理结构化数据的数据仓库基础工具,用来处理存储在hadoop上的海量数据,使用hive可以使查询和分析变得更简单。Hive起初是有facebook开发,后来贡献给apache基金会的,apache对它做了进一步的开发并开源。Hive不合适做哪些事情?1.hive不是一个关系型数据库2....转载 2018-12-15 19:19:37 · 289 阅读 · 0 评论 -
日志分析案例_souou_Hive离线分析_2018_12_18
备注:此博客为转载,方便自己学习进步,原作者地址请点击此处 前提条件:安装好hadoop2.7.3(Linux系统下)安装好MySQL(Windows系统下),推荐使用Xampp安装好Hive(Linux系统下)参考:Hive安装配置 题目:从搜狗实验室下载搜索数据进行分析下载的数据...转载 2018-12-18 07:59:28 · 618 阅读 · 0 评论 -
DbVisualizer数仓的登陆界面
Databases Connection:Database ConnectionSetting Format: 选择 Database URL原创 2019-04-16 11:24:25 · 443 阅读 · 0 评论 -
Hive表的select查询 总结! 总结!总结!
Hive提供了便捷的数据查询功能,这是Hive得到广泛使用的原因之一。Hive的SELECT与关系型数据库的SELECT既有相似之处,也有不同之处。语法:SELECT [ALL | DISTINCT] select _expr ,select_expr,...FROM table_reference[WHERE where_condition][GROUP BY col_lis...原创 2018-11-15 16:44:40 · 6036 阅读 · 0 评论 -
Hive的表连接优化(join优化)
left join,right join,inner join,full join之间的区别参考备注:转载的转载地址:https://www.cnblogs.com/lijingran/p/9001302.html下面是转载内容https://www.cnblogs.com/assasion/p/7768931.htmlhttps://blog.csdn.net/rongb...转载 2018-11-15 15:05:17 · 5562 阅读 · 2 评论 -
Hive的FAQ
FAQ你在工作中使用hive比较多,那么能不能简单介绍一下hive?hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hive存放的是:表(数据+元数据)存的是hdfs的映射关系;hive是逻辑上的数据仓库,实际操作的都是hdfs上的文件。Hql就是用sql语法来写的m...原创 2018-11-12 18:10:15 · 406 阅读 · 0 评论 -
大数据-hive知识点汇总
目录· 概况· 手工安装 · 引言 · 创建HDFS目录 · 创建元数据库 · 配置文件 · 测试· 原理 · 架构 · 与关系型数据库对比· API · WordCount · 命令 · 数据类型 · 文件存储格式 · 数据格式 · 数据库 ...转载 2018-11-12 18:55:54 · 322 阅读 · 0 评论 -
#18 数据仓库(hive)和数据库(mysql)有什么区别?
数据仓库(hive)和数据库(mysql)的区别数据库(DB=Data Base)数据仓库(DW=Data Warehouse)(1)数据的类型数据库(mysql):在线交易数据数据仓库(hive):历史数据(2)建模数据库(mysql):数据库的建模遵循三范式。数据仓库(hive):采用维建建模。(3)存储数据库(mysql):存储在线交易数...原创 2018-11-20 18:56:10 · 584 阅读 · 0 评论 -
能说一下你们项目中hive的库表设计吗---库表设计三板斧---内外部表|分区和分桶|序列化和反序列化
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_41851454/article/details/80543296 数据仓库的起源可以追溯到计算机与信息系统发展的初期。它是信息技术长期复杂演化的产物,并且直到今...转载 2018-11-20 19:23:39 · 235 阅读 · 0 评论 -
Groupby语句,GroupBy高级特性
语法:groupByClause: GROUP BY groupByExpression (, groupByExpression)*groupByExpression: expressiongroupByQuery: SELECT expression (, expression)* FROM srcgroupByClause?高级使用:多GroupBy 插入Gro...原创 2018-11-20 20:35:12 · 1297 阅读 · 0 评论 -
#12、Sqoop使用过吗?说一下sqoop的工作原理,以及使用体验
Sqoop的工作原理1、Sqoop介绍Sqoop即 SQL to Hadoop ,是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具,充分利用MapReduce并行特点以批处理的方式加快数据传输,发展至今主要演化了二大版本,Sqoop1和Sqoop2,我们以Sqoop1为案例进行讲解,Sqoop2商用不太稳定。Sqoop工具是hadoop下连接关系型数据库和Hadoop的桥...原创 2018-11-20 21:34:26 · 785 阅读 · 0 评论 -
Hive--------行转列查询VS列转行查询
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/lionel_fengj/article/details/53613158 Hive行转列和列转行表1:cityInfo cityname re...转载 2018-11-21 18:07:32 · 401 阅读 · 0 评论 -
Hive的行转列和列转行
行转列:使用 hive 的内置函数 concat_ws() 和 collect_set()进行转换。列转行:使用hive的内置函数explode()进行转化。原创 2018-11-21 18:19:40 · 247 阅读 · 0 评论 -
Hive与关系型数据库的区别
Hive与关系型数据库的区别(1)Hive和关系型数据库存储文件的系统不同, Hive使用的是HDFS(Hadoop的分布式文件系统),关系型数据则是服务器本地的文件系统。(2)Hive使用的计算模型是MapReduce,而关系型数据库则是自己设计的计算模型.(3)关系型数据库都是为实时查询业务设计的,而Hive则是为海量数据做挖掘而设计的,实时性差;实时性的区别导致Hive的应用...原创 2018-11-20 08:12:34 · 3585 阅读 · 0 评论 -
## Hive分区、桶、与倾斜
Hive的分区(1)在Hive Select 查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候查询 只需要扫描表中关心的一部分数据,因此建表时引入partition概念。(2)分区表指的是在创建表时指定的partition的分区空间。(3)如果需要创建有分区的表,需要在create表的时候调用可选参数partition by ,详细见表创建的语法结构。(4) ...原创 2018-11-20 11:07:18 · 943 阅读 · 0 评论 -
平时写过hive相关的脚本么?比如:python的或者shell的,如果写有,你在工作中是如何 使用这些脚本的?
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zz657114506/article/details/53576711 继上篇DDL中load的数据继续进行脚本操作。hive执行脚本hive -e “sql语...转载 2018-11-28 21:51:57 · 345 阅读 · 0 评论 -
Hive文件格式_TEXTFILE SEQUENCEFILE RCFILE ORCFILE0.11以后出现 PARQUET_
Hive的文件存储格式其中TEXTFILE为默认格式,建表时不指定、默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;备注:除TEXTFILE外,其他文件存储格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中,然后再从表中用insert 导入SequenceFile,RCFile,ORCFile,PARQUET表中;或者用复制表结果及数据的方式(c...原创 2019-04-18 09:17:28 · 883 阅读 · 0 评论