hive
AuroraPetard
这个作者很懒,什么都没留下…
展开
-
hive on hbase 建表语句示例
create external table shop_cart(key String,name String,value String)STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:nam...原创 2019-10-16 22:01:04 · 547 阅读 · 0 评论 -
cdh版 hive hive-site.xml 位置
真心感觉cdh不好用,乱糟糟的找了半天没发现在哪里,/etc里面的那个配置是thirft的配置不能用,需要mysql为元数据的那个配置偶然间发现在登录cm 左下角点进去hive 左下角 Hive metaStore Server 点进去 roletype 下面的随便点击一个进去在上面的Process里面记录了hive-site.xml mysql 为元数据库 密码为加密坑爹的...原创 2018-12-07 19:36:40 · 6479 阅读 · 0 评论 -
spark2.0 读取mysql 并加载到hive分区表 cdh
首先建立一个maven 项目 然后 add framework scala 添加scala支持将hive的相关配置放到项目的resources 目录下,core-site.xml hdfs-site.xml hive-site.xml如果是cdh的话,配置会有很多,可以自己简化一下,只保留 核心配置,比如说 namenode地址有的配置端口为8020 有的为9000 注意下端口,当初一...原创 2018-12-07 20:21:21 · 884 阅读 · 0 评论 -
mysql 以及hive 执行sql
mysql 有两种方式 针对sql脚本即多条sql放在一起mysql –u用户名 –p密码 –D数据库<【sql脚本文件路径全名】如果在 sql 脚本文件中使用了 use 数据库,则 -D数据库 选项可以忽略或者进入命令行mysql 中直接source path/xxx.sql 如果是直接执行 sql语句的话 mysql -h${HOSTNAME} -P$...原创 2018-12-03 20:25:37 · 488 阅读 · 0 评论 -
hive的一些概念 外部表 分区分桶
外部表:create external xxx() location默认创建内部表目录在 /user/hive/warehouse而外部表创建的时候,需要指定 external 关键字 以及location ,外部表与内部表的区别是 外部表可以创建在hdfs任一目录下,并且在drop table的时候 数据不会被清除;分区:指的是在创建表时,指定以那个字段分区,即 表目录下的子目录,比...原创 2018-12-09 20:04:47 · 396 阅读 · 0 评论 -
hive sql
列出用户购买的时间间隔select max(time) as mt from data;select user_id collect_list(result) from (select (mt-time)/(60*60*24) result from data ) t group by user_id主要是想说collect_list() 这个函数子查询join 链...原创 2019-03-10 10:17:54 · 96 阅读 · 0 评论 -
hive 使用 spark sql
前言:hive利用mr操作实在是太慢了,等的都烦了 so 利用spark来作为计算引擎1 在终端环境下 cp hive-site.xml hdfs-site.xml core-site.xml $SPARK_HOME/confcp mysql-connector.jar $SPARK_HOME/jarscp mysql-connector.jar $HIVE_HOME/lib/...原创 2019-04-02 22:50:05 · 274 阅读 · 0 评论 -
hive 排序 order by , sort by ,distribute by,cluster by
order by 是全局排序,但在数据量大的情况下花费时间长sort by 是将reduce的单个输出进行排序,不能保证全局有序distribute by 按照字段将数据划分到不同的reduce中 distribute 在sort 前面当distribute by 字段和 sort by的字段相同时可以用cluster by替代...原创 2019-04-02 23:08:12 · 148 阅读 · 0 评论 -
转 关于Hive中的复杂数据类型Array,Map,Structs的一些使用案例
https://blog.csdn.net/gamer_gyt/article/details/52169441写在前边的话: 同样是在做豆瓣电影数据分析的小课题的时候遇到的一个问题:hive表中的电影类型存储格式为array,那么我如何针对每一个类型做统计呢? 本来是想在基于豆瓣电影数据进行相关的数据分析项目 中进行相关解释说明的,仔细想了下,刚...转载 2019-04-03 18:19:19 · 447 阅读 · 0 评论 -
hive lateral view explode collect_set collec_list 以及常用函数
laterval view 常和explode一起使用用来行(单个字段中有多个指定分隔符的字段)转列lateral view 就像是有链接了一个表 LATERAL 没有Vexplode将map 或array转换成一个一个的单独字段select explode(myCol) from tableselect pageid,newAdid from table lat...原创 2019-04-03 18:27:56 · 861 阅读 · 0 评论 -
hive 变量
使用hivevar#!/bin/bashe_date=`date -d "$n_date " +%Y-%m-%d`" 00:00:00"s_date=`date -d "$n_date -1day" +%Y-%m-%d`" 00:00:00"name='insp'hive -hivevar start_time=$s_date -hivevar dbname=$name -hi...原创 2018-12-02 19:39:50 · 219 阅读 · 0 评论 -
Hive bucket
create table buck(id string,name string)clustered by (id) 加ed表示被即建表的时候已经将此表分区排序,只是一个格式sorted by (id)into 4 bucketsrow format delimited fields terminated by ',' ;load data local 但hd原创 2018-04-25 17:40:34 · 341 阅读 · 0 评论 -
Hive crud
create table xxx(id int,name string)row format delimited 以一行为分割fields terminated by ',' ;字段以什么分割原创 2018-04-23 17:17:19 · 302 阅读 · 0 评论 -
Hive join
a 1 a2 b3 c4 d7 y8 ub2 bb3 cc7 yy9 pp左链接:返回左表全部,如果右表有相对应的则返回,否则返回nullselect * from a left join b on a.id=b.id;1 a NU原创 2018-04-26 17:11:11 · 112 阅读 · 0 评论 -
Hive自定义函数UDF&&transform
首先将hive lib中的jar包放到类路径下面extends udfevaluate 方法可以有多个,为重载,根据传入参数值的类型加以区分导出jar包 idea导出很麻烦,果断换eclipsehive下 add JAR xxx.jar;hive> create temporary function functionName as 'jar包所在的类名';select nu原创 2018-04-27 10:56:00 · 156 阅读 · 0 评论 -
Hive面试sql
数据username month salaryA,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5求结果A 2015-01 33 33A原创 2018-04-28 19:09:15 · 1007 阅读 · 0 评论 -
hive 分组topN
select id,sex,age,hobby from t1 group by sex order by agerow_number() over (partition by sex order by age asc) as od;select * from t_tmp where od>3row_number为hive内置函数,partition 按哪一组分...原创 2018-05-15 11:09:58 · 379 阅读 · 0 评论 -
Hive安装体验
http://mirrors.hust.edu.cn/apache/hive/hive-2.2.0/此处下载的是2.2版本的hive是一个数据仓库,以我理解就是把一些的数据放到hive里面去进行分析,用于替代mapreducemapreduce编写复杂 所以hive 运用而生 用sql来进行处理hive依赖于一个数据库如最常用的mysql,用来存放元数据,比如hive的建表语句cr原创 2018-04-22 23:41:56 · 349 阅读 · 0 评论 -
Hive常见操作
删除分区alter table xxx drop if exists partition(create_time='sdfsd')或者drop 改为 truncate清空某个分区原创 2018-11-21 22:16:40 · 98 阅读 · 0 评论 -
hive 外部表,内部表
create table test(id int,name string) row format delimited fields terminated by ',' ;加载数据 load data local inpath '/home/test/test.txt' into table test;如果建表没有指定location,就会在hive.metastore.warehouse....原创 2018-11-25 15:20:50 · 223 阅读 · 0 评论 -
hive显示库名
在本地新建 .hiverc添加set hive.cli.print.current.db=true;原创 2018-12-04 19:13:21 · 519 阅读 · 0 评论 -
Hive 常见问题
1 java.base/jdk.internal.loader.ClassLoaders$AppClassLoader cannot be cast to java.base/java.net.URLCl其原因是jdk版本过高,我用的是9 ,所以将jdk改为1.8即可,但我还是报这个错误,原因是我没有删除原来的9,hadoop配置的是9。而hive会自动加载hadoop配置so 更改had...原创 2018-04-23 16:29:48 · 568 阅读 · 0 评论