bigdata_Hive
乔治大哥
脚踏实地,仰望星空。
展开
-
大数据学习,Hive是丢不掉的!Hive练习题50道,你也试试!
建表create table student(s_id string,s_name string,s_birth string,s_sex string) row format delimited fields terminated by '\t';create table course(c_id string,c_name string,t_id string) row format ...转载 2020-04-07 22:13:46 · 499 阅读 · 0 评论 -
HQL语句使用row_number() over(partition by),分组排序取topN
在mysql中实现over partiton by,进行分组排序取topNhttps://georgedage.blog.csdn.net/article/details/103557651使用mysql进行分区中的topN,但是在生产中我们一般使用sparksql进行分区中的topN计算。那么如果针对于HQL那么怎么进行写呢?【友情提示,使用的hive,可以将hql语句放在spar...原创 2019-12-16 15:52:23 · 3242 阅读 · 0 评论 -
浅析row_number()函数【HQL】
语法格式:row_number() over(partition by 分组列 order by排序列 desc)row_number() over()分组排序功能:在使用 row_number() over()函数时候,over()里头的分组以及排序的执行晚于 where 、group by、order by 的执行。说不如来个实例:创表create table ...原创 2019-12-16 15:51:05 · 2240 阅读 · 1 评论 -
大剑无锋之Hive调优【面试推荐】
1.Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。2.本地模式对于大多数这种情况,Hive可以通过本地模式在单台机器上处理所有的任务。对于小数据集,执行时间可以明显被缩短。...原创 2019-12-02 21:38:42 · 236 阅读 · 0 评论 -
游戏数仓分析(三)SpringBoot项目对数据进行可视化展示,每日注册用户
在游戏数仓分析(二)SpringBoot项目对数据进行可视化展示中已经做出一定的演示:https://georgedage.blog.csdn.net/article/details/103278405这里再添加一些指标。并做出另一个页面。希望对你我有用!在游戏数仓分析(二)中的代码项目上进行添加:【注】这里的hive创表,然后设置中间层,最后sqoop将数据导出到mysql没有细...原创 2019-11-27 21:48:50 · 959 阅读 · 0 评论 -
游戏数仓分析(二)SpringBoot项目对数据进行可视化展示
项目架构:1.新创建war项目2.补全项目结构文件夹3.添加依赖Pom.xml:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-in...原创 2019-11-27 16:49:56 · 2423 阅读 · 0 评论 -
HOL中的四种排序,Order By、Sort By、Distribute By、Cluster By
1.全局排序(Order By)Order By:全局排序,一个Reducer1.使用 ORDER BY 子句排序ASC(ascend): 升序(默认)DESC(descend): 降序2.ORDER BY 子句在SELECT语句的结尾3.案例实操(1)查询员工信息按工资升序排列hive (default)> select * from emp order...原创 2019-11-27 09:26:45 · 459 阅读 · 0 评论 -
游戏数仓分析(一)数据准备阶段
这各项目中有大量的指标,这里先只做一个进行分析,后续再更。1.分析指标每日登陆人数用户在N天内每日的登陆人数。2.静态分析数据静态观察CharacterLogin中的20141027.txt数据文件,结合xml文件,发现有两个字段很有用,分别是LogTime和IsLogin。这里的IsLogin表示登陆和登出,无论取什么值,都可以看作登录。也就是说,有用的字段实际上...原创 2019-11-26 20:35:09 · 1229 阅读 · 0 评论 -
在hive中对日期数据进行处理,毫秒级时间转化为yyyy-MM-dd格式
我们看到日志的时间是1414381913000 ,我们在需求中需要对每天的数据进行分析,所以需要对这个日志数据进行转化格式。常用时间类型格式转换:from_unixtime(bigint unixtime,[string format]): 时间戳转日期函数,unix_timestamp([string date]): 转换成时间戳,然后转换格式为“yyyy-MM-dd HH:mm...原创 2019-11-26 19:50:15 · 9223 阅读 · 0 评论 -
Hive的索引操作【小结】
Hive 索引目的:优化查询以及检索性能创建索引:create index t1_index on table person0(name)as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler'with deferred rebuild in table t1_index_table;as:指定索引器...原创 2019-11-20 21:21:25 · 549 阅读 · 0 评论 -
Hive的四种存储方式Stored as ?
原创 2019-11-20 21:16:12 · 2814 阅读 · 0 评论 -
ETL数据处理后的业务分析(一)
接https://georgedage.blog.csdn.net/article/details/102996488ETL后的数据处理!!!建表:影音信息数据:create table gulivideo_ori(videoId string,uploader string,age int,category array<string>,length int...原创 2019-11-20 20:27:08 · 577 阅读 · 0 评论 -
Hive_ 对比分区,分桶
Hive 动态分区建表时指出分区字段,但不给值,导入数据时 hive 根据分区字段的值自动创建分区。开启动态分区需要修改一些配置:是否开启动态分区,默认:falseset hive.exec.dynamic.partition=true;动态分区模式,默认:strict:严格模式,至少有一个分区列是静态分区set hive.exec.dynamic.partition.mode=nos...原创 2019-11-20 11:29:15 · 737 阅读 · 0 评论 -
什么是ETL?ETL是做什么的?
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,因而也称为数据仓库技术。其目的是将分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。可以看出,ETL要做三部分工作,数据抽取、数...原创 2019-11-10 13:20:47 · 73964 阅读 · 1 评论 -
Hive _函数(系统内置函数、自定义函数、自定义UDF函数)
函数系统内置函数1.查看系统自带的函数show functuions;2.显示自带的函数的用法desc function month;3.详细显示自带的函数的用法desc function extended month;自定义函数1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。2...原创 2019-11-06 08:45:15 · 398 阅读 · 0 评论 -
Hive _偏门常用查询函数(三)附带实例(Rank)
接上两篇博客Hive _偏门常用查询函数(一)附带实例https://blog.csdn.net/qq_41946557/article/details/102904642Hive _偏门常用查询函数(二)附带实例(列转行、窗口函数)https://blog.csdn.net/qq_41946557/article/details/102905208Rank1.函数说...原创 2019-11-05 20:33:21 · 220 阅读 · 0 评论 -
Hive _偏门常用查询函数(二)附带实例(列转行、窗口函数)
接上篇博客:Hive _偏门常用查询函数(一)附带实例https://blog.csdn.net/qq_41946557/article/details/102904642列转行1.函数说明EXPLODE(col):将hive一列中复杂的array或者map结构拆分成多行。LATERAL VIEW用法:LATERAL VIEW udtf(expression) tabl...原创 2019-11-05 19:39:29 · 467 阅读 · 0 评论 -
hive查询像mysql在终端一样有规则的方法!!!
启动hiveserver2的服务[root@henu2 ~]# hiveserver2 启动beeline[root@henu2 ~]# beelinebeeline> !connect jdbc:hive2://henu2:10000Connecting to jdbc:hive2://henu2:10000Enter username for jdbc:hive...原创 2019-11-06 21:29:41 · 336 阅读 · 0 评论 -
HQL中的substring
数据:jack,2017-01-01,10tony,2017-01-02,15jack,2017-02-03,23tony,2017-01-04,29jack,2017-01-05,46jack,2017-04-06,42tony,2017-01-07,50jack,2017-01-08,55mart,2017-04-08,62mart,2017-04-09,68neil...原创 2019-11-04 21:28:04 · 1340 阅读 · 0 评论 -
Hive _偏门常用查询函数(一)附带实例(空字段赋值、 CASE WHEN、行转列)
空字段赋值函数说明NVL:给值为NULL的数据赋值,它的格式是NVL( string1, replace_with)。它的功能是如果string1为NULL,则NVL函数返回replace_with的值,否则返回string1的值,如果两个参数都为NULL ,则返回NULL。数据准备:采用员工表01 george 100.0002 george 0.0003 george 0.0...原创 2019-11-04 20:38:15 · 851 阅读 · 1 评论 -
Hive _分桶及抽样查询
分桶及抽样查询1、分桶表数据存储分区针对的是数据的存储路径;分桶针对的是数据文件。分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理的分区,特别是之前所提到过的要确定合适的划分大小这个疑虑。分桶是将数据集分解成更容易管理的若干部分的另一个技术。hive (default)> show databases;OKdatabase_namede...原创 2019-11-04 19:53:37 · 795 阅读 · 0 评论 -
浅析Hive架构
Hive架构原理1.用户接口:ClientCLI(hive shell)、JDBC/ODBC(java访问hive)、WEBUI(浏览器访问hive)2.元数据:Metastore元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等;默认存储在自带的derby数据库中,推荐使用MySQL存储Meta...原创 2019-11-04 19:14:58 · 308 阅读 · 0 评论 -
Hive _练习,更新中
#学生表create table student(s_id string,s_name string,s_birth string,s_sex string)row format delimited fields terminated by ' ';#sid,sname,sbirth,ssex#学生信息01 George 1990-01-01 男02 honey...原创 2019-10-31 19:09:16 · 273 阅读 · 0 评论 -
Hive函数简介
Hive函数1.内置运算符1.1关系运算符 运算符 类型 说明 A = B 所有原始类型 如果A与B相等,返回TRUE,否则返回FALSE A == B 无 失败,因为无效的语法。 SQL使用”=”...原创 2019-10-31 16:07:45 · 185 阅读 · 0 评论 -
Hive的安装【完整版】
1、首先在安装mysql 详情见:linux安装mysql详细过程【easy】https://blog.csdn.net/qq_41946557/article/details/102680532命令输出后你会发现或许还是可以直接登陆进去,重启一下。如果看到这个错误:ERROR 2002 (HY000): Can't connect to local MySQL server...原创 2019-10-30 21:05:23 · 361 阅读 · 0 评论 -
浅析hive元数据
hive的元数据存在于mysql中,在mysql中会有一个metastore(取决于hive-site.xml中的设置)库,存放相应的表version表:version表存hive的版本信息,该表中数据只有一条,如果存在多条,会造成hive启动不起来。dbs表:tabls表具体请看参照参照:https://blog.csdn.net/haozh...原创 2019-10-30 14:18:56 · 527 阅读 · 0 评论 -
Hive 05_hive变量、动态分区
hive 参数、变量 --hive当中的参数、变量,都是以命名空间开头 --通过${}方式进行引用,其中system、env下的变量必须以前缀开头hive 参数设置方式 --1、修改配置文件 ${HIVE_HOME}/conf/hive-site.xml --2、启动hive cli时,通过--hiveconf key=value的方式进行设置 --...原创 2019-10-01 20:55:07 · 714 阅读 · 0 评论 -
Hive 04_WordCount
vi wc;hdfs dfs -mkdir /usr;hdfs dfs -put wc /usr/create external table wc(line string)location '/usr/'create table wc_result(word string,ct int);select explode(split(line,' ')) from wc...原创 2019-10-01 19:48:08 · 169 阅读 · 0 评论 -
Hive 03_DML、SerDe、Beeline、JDBC
Hive DML——LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]——移动数据文件到Hive表相应的位置。——FROM from_statementINSERT OVERWRITE TABLE tab...原创 2019-10-01 16:38:39 · 175 阅读 · 0 评论 -
Hive 02_建表分区
create table psn(id int,name string,likes array<string>,address map<string,string>)row format delimitedfields terminated by ','collection items terminated by '-'map keys terminat...原创 2019-10-01 14:06:55 · 233 阅读 · 0 评论 -
Hive 01_初学必知
HiveHive的产生:非java编程者对hdfs的数据做mapreduce操作Hive : 数据仓库。Hive:解释器,编译器,优化器等。Hive 运行时,元数据存储在关系型数据库里面。Hive架构:Hive的架构(1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副...原创 2019-09-28 22:31:10 · 214 阅读 · 0 评论 -
HiveSQL
Hive的数据类型 :primitive_type | array_type | map_type | struct_type :primitive_type |TINYINT | SMALLINT | INT | BIGINT | BOOLEAN | FLOAT | DOUBLE | STRINGHive完整的DDL建表语法规则CREATE...原创 2019-09-26 17:13:18 · 309 阅读 · 0 评论