Hive
文章平均质量分 74
孙晨c
业精于勤,荒于嬉;行成于思,毁于随。
展开
-
如何使用DBeaver连接hive
命令把这个jar包下载到本地(原创 2021-07-14 15:21:28 · 5378 阅读 · 0 评论 -
使用hql-统计连续登陆的三天及以上的用户
文章目录数据提供输出字段解法一解法二建表导数据验证数据解决方案-使用解法二结果思路这个问题可以扩展到很多相似的问题:连续几个月充值会员、连续天数有商品卖出、连续打车、连续逾期……数据提供 用户ID、登入日期 user01,2018-02-28 user01,2018-03-01 user01,2018-03-02 user01,2018-03-04 user01,2018-03-05 user01,2018-03-06 user01,2018-03-07 user02,2018-0原创 2021-02-21 00:20:32 · 642 阅读 · 0 评论 -
Hive读取索引文件问题:select * 和select count(*)读取出来的行数不一致
两种方式,分别查询数据有多少行:hive (gmall)> select * from ods_log;Time taken: 0.706 seconds, Fetched: 2955 row(s)hive (gmall)> select count(*) from ods_log;2959两次查询结果不一致的原因分析hive (gmall)> drop table if exists ods_log;CREATE EXTERNAL TABLE ods_log (`l原创 2021-02-04 17:41:11 · 1082 阅读 · 3 评论 -
Hive排序函数
文章目录排名函数练习排名函数注意:排名函数可以跟Over(),但是不能定义window_clause。在计算名次前,需要先排序!RANK: 允许并列,一旦有并列跳号!ROW_NUMBER: 行号! 连续的,每个号之间差1!DENSE_RANK: 允许并列,一旦有并列不跳号!CUME_DIST: 从排序后的第一行到当前值之间数据 占整个数据集的百分比!PERCENT_RANK: rank-1/ 总数据量-1NTILE(x): 将数据集均分到X个组中,返回每条记录所在的组号selec原创 2020-10-07 20:35:17 · 821 阅读 · 1 评论 -
Hive窗口函数
文章目录官方文档地址Windowing functions统计类的函数(一般都需要结合over使用):min,max,avg,sum,count窗口的大小可以通过windows_clause来指定:特殊情况:窗口函数和分组有什么区别?练习官方文档地址Hive官网,点我就进oracle,sqlserver都提供了窗口函数,但是在mysql5.5和5.6都没有提供窗口函数!窗口函数: 窗口+函数窗口: 函数运行时计算的数据集的范围函数: 运行的函数!仅仅支持以下函数:Windowing f原创 2020-10-07 20:01:21 · 250 阅读 · 2 评论 -
Hive函数
文章目录1.查看函数2.函数的分类按函数的来源:按函数的特征:常用函数常用日期函数常用取整函数集合操作1.查看函数函数有库的概念,系统提供的除外,系统提供的函数可以在任意库使用!查看当前库所有的函数:show functions;查看函数的使用: desc function 函数名查看函数的详细使用: desc function extended 函数名2.函数的分类按函数的来源:①系统函数,自带的,直接使用即可②用户自定义的函数。a)遵守hive函数类的要求,自定义一个函数类b原创 2020-10-04 21:13:18 · 234 阅读 · 1 评论 -
Hive中库和表的常见操作
文章目录库的常见操作1.增2.删3.改4.查表的常见操作1.增2.删3.改4.查库的常见操作1.增 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] // 库的注释说明 [LOCATION hdfs_path] // 库在hdfs上的路径 [WITH DBPROPERTIES (property_name=property_value, ...)]; // 库的原创 2020-10-01 21:42:24 · 650 阅读 · 1 评论 -
Hive中的数据类型以及案例实操
文章目录基本数据类型集合数据类型案例实操基本数据类型对于Hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB的字符数。集合数据类型Hive有三种复杂数据类型ARRAY、MAP 和 STRUCT。ARRAY和MAP与Java中的Array和Map类似,而STRUCT与C语言中的Struct类似,它封装了一个命名字段集合,复杂数据类型允许任意层次的嵌套。Map和Struct的区别:Struct中属性名原创 2020-10-01 21:36:19 · 354 阅读 · 1 评论 -
配置hive的元数据到Mysql中
在hive的安装目录下,进入conf目录,创建一个hive-site.xml文件根据官方文档配置参数,拷贝数据到hive-site.xml文件中https://cwiki.apache.org/confluence/display/Hive/AdminManual+MetastoreAdmin注意:先创建一个metastore数据库,字符集要用latin1<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href=".原创 2020-09-30 21:03:43 · 468 阅读 · 1 评论 -
Hive数据的存储以及在centos7下进行Mysql的安装
1. Hive要分析的数据是存储在HDFS上hive中的库的位置,在hdfs上就是一个目录!hive中的表的位置,在hdfs上也是一个目录,在所在的库目录下创建了一个子目录!hive中的数据,是存在在表目录中的文件!在hive中,存储的数据必须是结构化的数据,而且这个数据的格式要和表的属性紧密相关!表在创建时,有分隔符属性,这个分隔符属性,代表在执行MR程序时,使用哪个分隔符去分割每行中的字段!查看表中分隔符:cat -T 文件名也可以在创建表的同时, 声明文件分隔符为\t,比如原创 2020-09-30 17:23:10 · 308 阅读 · 1 评论 -
Hive安装部署启动、与mysql的比较
文章目录什么是HiveHive的特点Hive和数据库比较数据存储位置数据更新Hive安装Hive安装部署1.Hive安装及配置集群配置Hive基本操作什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上4原创 2020-09-30 17:15:52 · 442 阅读 · 1 评论