hive
文章平均质量分 60
飄落
这个作者很懒,什么都没留下…
展开
-
将CSV文件导入到hive数据库
将csv文件导入hive后出现了所有的字段只显示在新建的表的第一个字段中,后面的字段全是null.出现这种的原因是hive以行分隔数据,需要修改为按逗号' , ‘ 进行分隔读取,具体操作如下,首先在hive中创建自己的table, 并且设置以逗号分隔。 create table IP(ip varchar(30), country varchar(原创 2017-06-15 10:36:45 · 1095 阅读 · 0 评论 -
Hive中SELECT TOP N的方法(order by与sort by
我想说的SELECT TOP N是取最大前N条或者最小前N条。Hive提供了limit关键字,再配合order by可以很容易地实现SELECT TOP N。但是在Hive中order by只能使用1个reduce,如果表的数据量很大,那么order by就会力不从心。例如我们执行SQL:select a from ljntest01 order by a limit 10;控制台会打印出...转载 2018-11-26 17:15:59 · 279 阅读 · 0 评论 -
presto JDBC maven代码
2.3. JDBC Driver1-JDBC jar 或maven Presto支持JDBC driver访问,下载 presto-jdbc-0.191.jar,添加到应用程序的 class path 中,同时也可以通过Maven中心仓库连接:<dependency> <groupId>com.facebook.presto</groupId>...原创 2018-11-27 10:32:38 · 1068 阅读 · 0 评论 -
电信CALL 通话记录hbase kafka flume 学习
可视化:-------------- 1. 2. 3. 4. 5.package com.it18zhang.callloggen;import java.util.HashMap;import java.util.Map;/** * */public class App { public static Map<String...原创 2019-01-24 21:44:05 · 414 阅读 · 0 评论 -
Hive简单优化;workflow调试
1. 定义job名字SET mapred.job.name='customer_rfm_analysis_L1';这样在job任务列表里可以第一眼找到自己的任务。 2. 少用distinct, 尽量用group by因为会把数据弄在一个reduce中,造成数据倾斜。distinct数据数量大于1000条时。 3. join时小表最好放左边否则会引起磁盘和内存的大量消...原创 2019-02-15 16:57:07 · 248 阅读 · 0 评论 -
HIVE优化学习
1.概述 继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产...转载 2019-02-13 14:53:00 · 206 阅读 · 0 评论 -
利用Hive中concat_ws函数将多行记录合并成一行
创建测试表 CREATE TABLE IF NOT EXISTS TEST.USERS ( id string, k1 string, k2 string, k3 string ) COMMENT '用户表' ROW FORMAT delimited fields terminated BY '\t' STORED AS TEXTFIL...原创 2019-05-15 09:18:23 · 1291 阅读 · 0 评论 -
hive中创建hive-json格式的表及查询
在hive中对于json的数据格式,可以使用get_json_object或json_tuple先解析然后查询。也可以直接在hive中创建json格式的表结构,这样就可以直接查询,实战如下(hive-2.3.0版本):1. 准备数据源将以下内容保存为test.txt{"student":{"name":"king","age":11,"sex":"M"},"class":{"...转载 2019-06-11 08:54:34 · 499 阅读 · 0 评论