![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
MicoOu
这个作者很懒,什么都没留下…
展开
-
hive窗口函数之ntile、lag、lead、first_value、last_value
目录1.样例数据2.ntile(n)2.1实例1.样例数据id crtime pvcookie1,2015-04-10,1cookie1,2015-04-11,5cookie1,2015-04-12,7cookie1,2015-04-13,3cookie1,2015-04-14,2cookie1,2015-04-15,4cookie1,2015-04-16,4cook...原创 2020-03-17 01:07:18 · 1687 阅读 · 0 评论 -
漏斗转化率统计实战 &(hive严格模式,本地模式)
目录1. 求每一步相对于第一步的转化率2. 求每一步相对于上一步的转化率转化率统计表名order.txt字段id, name, pv1,广告,100002,菜单,30003,详情,26004,购物车,3005,下单,2006,支付,1907,支付ok,189用到关键技术:自连接,窗口函数max前期准备:create database if not exists h...原创 2019-12-12 17:03:43 · 1048 阅读 · 0 评论 -
TopN,窗口函数(row_number, rank, dense_rank)实战
目录(求TopN)求出每种爱好中,年龄最大的两个人(姓名,爱好,年龄)四个字段的意思:id,姓名,年龄,爱好表名topn字段id, name, age, favor1,ngxiaoming,45,a-c-d-f2,huangzitao,36,b-c-d-e3,huanglei,41,c-d-e4,liushishi,22,a-d-e5,liudehua,39,e-f-d6,...原创 2019-12-11 15:37:14 · 1033 阅读 · 0 评论 -
自连接,窗口函数(sum、avg、max、min)实战
采用自连接和窗口函数两种方法解题:求每个用户截止到每月为止的当月访问次数、最大单月访问次数、累计到该月的总访问次数。三个字段的意思:用户名,月份,访问次数表名visits字段id, vmonth, pv数据:A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2...原创 2019-12-11 15:18:56 · 2254 阅读 · 0 评论 -
hive分区表和分桶表
目录1.分区表1.1静态分区小结1.2动态分区2.分桶表先创建一个数据库myhive2019create database if not exists myhive2019;在myhive2019数据库下创建内部表 student:create table student(id int,name string,gender string,age int,department string...原创 2019-12-07 00:15:16 · 814 阅读 · 2 评论 -
hive数据导入的6种方式
目录1.hadoop fs -put的方式2.load的方式3.insert...values的方式4.insert...select的方式5.CTAS的方式1.hadoop fs -put的方式创建库create database if not exists 数据库名;创建的数据库存放在hive2.load的方式创建库create database if not exist...原创 2019-12-04 22:31:00 · 2047 阅读 · 0 评论 -
数据库和数据仓库的区别(个人理解)
数据库和数据仓库的区别针对导入数据的操作1) 数据库:OLTP,一定会对要插入的数据进行严格的检查,不满足要求不能插入。2) 数据仓库:OLAP,对插入的数据不会检查。Hive数据仓库会存储非常大量的数据,一次导入可能就是几百G,几十T,hive不检查是不想让导入的数据效率过于低下。而mysql数据库就很严谨,如果格式不对,就不让插入数据。...原创 2019-12-04 17:06:00 · 2238 阅读 · 0 评论 -
hive外部表和内部表的区别
目录关于库的操作关于外部表和内部表的操作1. 创建外部表【一般HDFS上先有公用数据,再创建外部表进行连接】external2. 创建内部表【一般先创建表,不指定路径,再导入数据】外部表和内部表的区别总结关于库的操作创建库create database if not exists 数据库名;创建的数据库存放在hive默认的仓库里面(该仓库的位置在当时安装hive的时候指定的位置,在/...原创 2019-12-04 16:52:38 · 291 阅读 · 0 评论 -
hive元数据库理解和初级实操
1. hive元数据库hive创建一张表,关联HDFS上存储的结构化数据,那么这张表存储在哪里?其实hive会把用户创建的数据库表等抽象的信息专门存储在一个数据库中,这个数据库就是-------元数据库。HDFS存储的数据有两种:①用户的真实数据,存储在datanode中②抽象和管理这些真实数据的数据,叫做元数据,存储在namenode中namenode类比于书本的目录,datano...原创 2019-12-02 17:24:08 · 758 阅读 · 0 评论 -
三分钟入门hive的7个概念
1. hive是由Facebook实现并开源的2. hive是hadoop的数据仓库工具hive是将存储在HDFS上的结构化数据映射为一张二维表格,编写sql语句来统计分析。结构化数据:csv、tsv半结构化数据:图片格式、音频格式、视频格式非结构化数据:html、xml用一张图来解释:把存储在HDFS上的结构化数据,通过Hive的sql语句创建数据库表映射为一张二维表格,然后可以写...原创 2019-12-02 16:42:49 · 396 阅读 · 0 评论 -
hive环境搭建及问题
目录hive环境搭建搭建过程存在的问题hive环境搭建alt+p打开sftp,上传apache-hive-2.3.4-bin.tar.gz到hadoop02。在hadoop02虚拟机中进入到apps目录下,看到刚刚上传的hive安装包,解压tar zxvf apache-hive-2.3.4-bin.tar.gz,进入到bin目录下。在bin目录下运行hive脚本[hadoopU...原创 2019-11-28 17:44:55 · 272 阅读 · 0 评论