hive
文章平均质量分 70
Ebaugh
今日之上达,无非他日之下学也————南怀瑾
展开
-
数据仓库
目前业界较为主流的是数据仓库厂商主要是 IBM 和 NCR,这两家公司的除了能够提供较为强大的数据仓库平台之外,也有各自的针对某个行业的数据模型。 例如,在银行业,IBM 有自己的 BDWM(Banking data warehouse model),而 NCR 有自己的 FS-LDM 模型。在电信业,IBM 有 TDWM(Telecom Data warehouse model...转载 2018-08-13 19:56:09 · 960 阅读 · 0 评论 -
Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-build-b2PICB/unroll/
2017年08月08日 10:35:41 imperfect00 阅读数:1276版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011961856/article/details/76886843使用pip安装时出现错误: Command "python setup.py egg_info" failed with err...转载 2018-11-28 15:15:01 · 7568 阅读 · 0 评论 -
hive java.lang.NoSuchMethodError: com.ibm.icu.impl.ICUBinary.getRequiredData
环境说明hadoop-2.7.4hive-2.3.2hbase-1.4.2jdk1.8.0_161问题现象原先启动hiveserver2和metastore的两个服务一直运行状况良好,重启这个两个服务后都出现如下异常信息启动命令示例:hive --service hiveserver2Exception in thread "main" java.lang.NoS...转载 2018-12-13 17:41:15 · 1527 阅读 · 0 评论 -
hive row_number()用法
1、row_number() over()排序功能:(1) row_number() over()分组排序功能: 在使用 row_number() over()函数时候,over()里头的分组以及排序的执行晚于 where group by order by 的执行。partition by 用于给结果集分组,如果没有指定那么它把整个结果集作为一个分组,它和聚合函数不同的地方...转载 2019-01-14 10:52:33 · 3264 阅读 · 0 评论 -
hive中dense_rank&row_number&rank函数
hive中三个排序函数rank、row_number、dense_rank日常中比较常用到,今天来说说三者的区别:1、rank()函数此排序方法进行排序时,相同的排序是一样的,而且下一个不同值是跳着排序的。2、row_number()函数此方法不管排名是否有相同的,都按照顺序1,2,3…..n3、dense_rank()函数此方法对于排名相同的名次一样,且后面名次不跳跃...转载 2019-01-24 16:51:03 · 329 阅读 · 0 评论 -
hive semi join
比如以下A表和B表进行 join 或 left semi join,然后 select 出所有字段,结果区别如下:转载 2019-01-24 16:52:01 · 761 阅读 · 0 评论 -
rank、dense_rank、row_number函数的区别
这四个(RANK、DENSE_RANK、NTILE、ROW_NUMBER)函数,都是用来对数据库中的数据进行排名的,在他们的功能各有千秋。下面介绍一下这四个函数的功能和用法:首先创建一个Student表CREATETABLEStudent( StudentIDint, ClassIDint, Markint );然后在表中插入数据...转载 2019-01-24 18:13:21 · 6092 阅读 · 1 评论 -
hive row_number()用法
1、row_number() over()排序功能:(1) row_number() over()分组排序功能: 在使用 row_number() over()函数时候,over()里头的分组以及排序的执行晚于 where group by order by 的执行。partition by 用于给结果集分组,如果没有指定那么它把整个结果集作为一个分组,它和聚合函数不同的地方...转载 2019-01-23 15:15:29 · 930 阅读 · 0 评论 -
hive 表注释显示中文乱码
hive 表注释显示中文乱码hive> show create table dim_mobile;OKcreatetab_stmtCREATE TABLE `dim_mobile`( `mobileno` string COMMENT '?????MD5?', `carrier` string COMMENT '???', `provid` int COMMENT '??...原创 2019-03-15 18:41:04 · 1631 阅读 · 2 评论 -
hive sql 生成userid
https://blog.csdn.net/qq_40477943/article/details/81873293原创 2019-07-09 18:14:57 · 435 阅读 · 0 评论 -
kettle并发数量设置
start后设置多个并发,鼠标右击start选择RUN Next Entries in Parallel原创 2019-07-16 16:08:36 · 3155 阅读 · 1 评论 -
hive -e去除字段名
hive -e "use bigdata;SET hive.cli.print.header=false;select * from dw_results limit 1000;" > /data/user/export/results.txtSET hive.cli.print.header=false;可以在hive配置文件中设置。也可以动态设置。spark-sql不支持去除...原创 2019-07-16 16:16:33 · 1377 阅读 · 0 评论 -
hive on spark jar包缓存问题
允许Yarn在节点上缓存必要的spark依赖关系jar,这样每次应用程序运行时都不需要分发它。 在Hive 2.2.0之前,将spark-assembly jar上传到hdfs文件(例如:hdfs:// xxxx:8020 / spark-assembly.jar)并在hive-site.xml中添加以下内容 <property> <name&g...原创 2018-11-26 11:01:22 · 903 阅读 · 0 评论 -
hive 队列名设置
set mapreduce.job.queuename=shujubu;select daa1.* from dw_activity_antirush_result daa1 join (select applyid, count(1) as cn from dw_activity_antirush_result grou...原创 2018-11-26 10:54:13 · 1321 阅读 · 0 评论 -
hive相关的example
hive库、表、分区、桶的一些概念:Databases:数据库,概念等同于关系型数据库的Schema;Tables:表,概念等同于关系型数据库的表;Partitions:分区,概念类似于关系型数据库的表分区,便于提高效率;Buckets (or Clusters):分桶,同一个分区内的数据还可以细分,将相同的KEY再划分至一个桶中,这个有点类似于HASH分区,只不过这里是HASH分桶,也...原创 2018-11-19 14:11:30 · 734 阅读 · 0 评论 -
hive内外表、分区表及桶表
hive库、表、分区、桶的一些概念:Databases:数据库,概念等同于关系型数据库的Schema;Tables:表,概念等同于关系型数据库的表;Partitions:分区,概念类似于关系型数据库的表分区,便于提高效率;Buckets (or Clusters):分桶,同一个分区内的数据还可以细分,将相同的KEY再划分至一个桶中,这个有点类似于HASH分区,只不过这里是HASH分桶,也...原创 2018-08-13 19:59:00 · 515 阅读 · 0 评论 -
Hive的Collect函数
版权声明:本文为博主原创文章,转载请注明出处。 https://blog.csdn.net/u014307117/article/details/52296757有以下表id name1001 A1001 B1001 C实现以下功能id name1001 A,B,C即按照id 进行group by,将每个id的name组成一个list...转载 2018-10-12 16:17:38 · 1934 阅读 · 0 评论 -
hive-NVL、Coalesce、NVL2、NULLIF函数
1.NVL函数NVL函数的格式如下:NVL(expr1,expr2)含义是:如果oracle第一个参数为空那么显示第二个参数的值,如果第一个参数的值不为空,则显示第一个参数本来的值。例如:SQL> select ename,NVL(comm, -1) from emp; ENAME NVL(COMM,-1)------- ----SMITH -1ALLEN 300WAR...转载 2018-10-12 16:46:44 · 478 阅读 · 0 评论 -
Hive中join, outer join, semi join区别
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。最常用的就是多表关联查询,主要讲解下join、outer join和semi join的具体使用。join是最简单的关联操作,两边关联只取交集。outer join分为left outer join、right ...转载 2018-10-12 16:47:28 · 3600 阅读 · 0 评论 -
hive 动态分区及load和insert用法
hive load用法:load data local inpath '/home/data/stg_activity_antirush_apply.txt' overwrite into table stg_activity_antirush_apply; 关键字local 不加数据从hdfs上加载,如果加local数据从本地加载;关键字overwrite 为覆盖加载,会覆盖掉原有的数...原创 2018-10-19 16:26:47 · 9059 阅读 · 0 评论 -
hive collect_list和collect_set区别
Hive中collect相关的函数有collect_list和collect_set。它们都是将分组中的某列转为一个数组返回,不同的是collect_list不去重而collect_set去重。 做简单的实验加深理解,创建一张实验用表,存放用户每天点播视频的记录: 1 2 3 4 5 create table t_visi...转载 2018-10-22 19:51:35 · 4019 阅读 · 0 评论 -
Hive on Spark调优
之前在Hive on Spark跑TPCx-BB测试时,100g的数据量要跑十几个小时,一看CPU和内存的监控,发现 POWER_TEST阶段(依次执行30个查询)CPU只用了百分之十几,也就是没有把整个集群的性能利用起来,导致跑得很慢。因此,如何调整参数,使整个集群发挥最大性能显得尤为重要。 Spark作业运行原理spark-base-mech.jpg详细原理见上图。我们使用spar...转载 2018-10-31 14:02:29 · 849 阅读 · 0 评论 -
hive 四种join的区别
tableA的结构及数据:id name grade dept1 lijie1 100.0 102 lijie2 90.0 203 lijie3 60.0 104 lijie4 80.0 105 lijie5 70.0 20tableB的结构及数据:id name10...转载 2018-10-31 14:26:21 · 2143 阅读 · 0 评论 -
hive on spark 性能参数调优
select * from stg_bankcard_auth_apply where length(idcardno) >= 1 and length(idcardno) <> 32;--该表存储文件格式为txt格式,是源文件直接load进来的,mapreduce运行不管任何sql(包括非常简单的),直接崩溃,无法统计;文件65.5G,1.4亿条数据--同样的sql统计;...原创 2018-11-03 10:45:51 · 5496 阅读 · 0 评论 -
hive on spark 配置文件
<property> <name>hive.execution.engine</name> <value>spark</value> </property> <property> <name>hive.enable.spark.execution.engi原创 2018-11-21 17:26:38 · 348 阅读 · 0 评论 -
hive集群模式配置
<property> <name>hive.metastore.uris</name> <value>thrift://10.150.133.242:9083</value> <description>Thrift URI for the remote metastore. Used by metas...原创 2018-11-21 17:28:04 · 607 阅读 · 0 评论 -
hive 配置文件
<property><name>hive.exec.scratchdir</name><value>/user/hive/tmp</value></property><property><name>hive.metastore.warehouse.dir<原创 2018-11-21 17:30:39 · 282 阅读 · 0 评论 -
hive问题汇总
https://blog.csdn.net/asd315861547/article/details/56278799一.基本功能:1.启动hive时报错 java.lang.ExceptionInInitializerError at java.lang.Class.forName0(Native Method) at java.lang.Class...转载 2019-07-17 13:44:41 · 988 阅读 · 0 评论