hive
文章平均质量分 87
jin6872115
这个作者很懒,什么都没留下…
展开
-
九个最容易出错的 Hive sql 详解及使用注意事项
结果是错误的,把所有的电器类型都查询出来了,原因就是 and 优先级高于 or,上面的sql语句实际执行的是,先找出 classify = '家具' and price>100 的,然后在找出 classify = '电器' 的。在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括 hive,spark,flink等,所以sql在大数据领域有着不可替代的作用,需要我们重点掌握。...转载 2022-08-17 14:04:38 · 652 阅读 · 0 评论 -
转载spark异地读取hive(亲测有效)
https://segmentfault.com/a/1190000019456175本文适用有入门spark基础的同学,一些最基础知识不再赘述通过阅读本文即可掌握使用Spark跨集群同步Hive数据的技巧!众所周知,业界比较成熟的同步数据工具是Sqoop,它是连接关系型数据库和Hadoop的桥梁比较常用的场景是从MySQL等RDB同步到Hive、Hbase或者将Hive、Hbase的数据导出到MySQL但是在公司项目技术选型时选用了用Spark来从一个集群同步数据到另一个集群下原创 2021-11-16 15:16:22 · 1519 阅读 · 0 评论 -
hive分区表新增字段(指定添加列的位置)+重刷历史方法(避免旧分区新增字段为NULL)
转自:https://blog.csdn.net/lz6363/article/details/86035864今天接到需求大概是这样的,在以前上线的分区报表中新加一个字段,并且要求添加到指定的列,然后刷新同步以前的数据,现将模拟实现如下:创建测试表create external table test.table_add_column_test( original_column1 string comment '原始数据1', original_column2 string co...转载 2020-05-23 12:01:09 · 2182 阅读 · 1 评论 -
Parquet与ORC:高性能列式存储格式
转自:https://blog.csdn.net/yu616568/article/details/51868447/背景随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、...转载 2018-09-12 15:22:20 · 314 阅读 · 0 评论 -
spark读写hive的注意点
可以直接使用 val conf = new SparkConf().setMaster("local").setAppName("sdf") val sc = new SparkContext(conf) val hiveContext = new HiveContext(sc) val df = hiveContext.sql("drop table myhive....原创 2018-09-07 16:41:53 · 860 阅读 · 0 评论 -
基于CM搭建的CDH集群之hive组件升级过程(hive0.13.1升级到hive-1.2.1且确保纳入CM管理)
1、在hive0.13.1版本下创建lib121目录cd /opt/cloudera/parcels/CDH/lib/hive;mkdir lib1212、下载hive1.2.1版本,并将该版本lib下所有文件拷贝到lib121中3、修改/opt/cloudera/parcels/CDH/lib/hive/bin/hive中HIVE_LIB变量HIVE_LIB=${HIVE_HOME...原创 2018-10-19 08:58:25 · 806 阅读 · 0 评论 -
hadoop跨集群之间迁移hive数据
进行hive库迁移过程中碰到的问题1、hdfs数据迁移过程中,使用hadoop distcp /apps/hive/warehouse/userinfo hdfs://10.11.32.76:8020/apps/hive/warehouse/将老库的hive的数据复制到新库中,在测试环境报权限错误,需要添加如下配置 <property> <name&g...原创 2018-10-22 09:54:22 · 3873 阅读 · 0 评论 -
CDH安装配置zeppelin-0.7.3以及配置spark查询hive表
转自1.下载zeppelinhttp://zeppelin.apache.org/download.html 我下载的是796MB的那个已经编译好的,如果需要自己按照环境编译也可以,但是要很长时间编译,这个版本包含了很多插件,我虽然是CDH环境但是这个也可以使用。2.修改配置文件cd /zeppelin-0.7.3-bin-all/confcp zeppelin-env...转载 2018-10-26 15:31:26 · 260 阅读 · 0 评论 -
hive修改分区信息
hive由于数据没法删除,但是可以删除分区表,不是分区表的直接覆盖就行 对于分区表,当分区字段是日期是,通过分区删除alter table dwd_trd_r_base1 drop if exists partition(report_date='2018-03-01');会报错,partition=null可以通过如下方式解决-- Change the colum...原创 2018-11-14 11:52:40 · 9437 阅读 · 0 评论 -
CHD的impala实现hive和hbase数据查询
cdh版本安装spark-sql比较复杂,cdh主推impala,可以方便进行查询启动命令:impala-shell可以直接进行hive操作。impala查询hbase,需要进行映射CREATE EXTERNAL TABLE tiger.test_info(--指定库名和表名 user_id string, --字段 user_type tinyint,...原创 2019-03-01 10:54:14 · 804 阅读 · 0 评论 -
hive解决小文件过多的问题--[常用策略]
哪里会产生小文件 ?源数据本身有很多小文件动态分区会产生大量小文件reduce个数越多, 小文件越多按分区插入数据的时候会产生大量的小文件, 文件个数 = maptask个数 * 分区数小文件太多造成的影响 ?从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能。HDFS存储太多小文件, 会导致na...原创 2019-09-06 11:26:14 · 774 阅读 · 0 评论 -
Spark整合Hive
2017年10月23日 16:35:03阅读数:154安装hive 解压hive到指定的目录中,一般解压在/usr/local/hivetar -zxvf hive-xxx.tar.gz1配置系统环境 配置hive-env.sh的环境 配置hadoop的家目录,配置hive的家目录,已及配置hive配置文件的目录配置hive-site.xml<property> <nam...转载 2018-06-25 19:32:12 · 6268 阅读 · 0 评论 -
Hive整合HBase 通过Hive读/写HBase中的表
写在前面一:本文将Hive与HBase整合在一起,使Hive可以读取HBase中的数据,让Hadoop生态系统中最为常用的两大框架互相结合,相得益彰。 写在前面二:使用软件说明约定所有软件的存放目录:/home/yujianxin一、Hive整合HBase原理Hive与HBase整合的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive-hbase-handler-0.9.0...转载 2018-06-25 19:19:19 · 498 阅读 · 0 评论 -
Hive常见问题汇总
1,执行#hive命令进入Hive CLI时报如下错误:Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient ...转载 2018-05-04 21:49:55 · 1678 阅读 · 0 评论 -
hive内置函数大全
在学习hive过程中,熟练使用hive内置函数,可以节省大量时间,在学习之余,将函数基本使用总结汇总一下,方便后续使用查阅,混个脸熟,内置函数271个,结合源码,需要持续学习更新分享一个全面的函数大全这里数学函数返回类型函数名称描述doubleround(double a)当输入参数仅有一个时,返回四舍五入的整数, 输入类型可以是数字,字符串: eg:round(2)->2; round(-...原创 2018-04-14 11:19:33 · 2646 阅读 · 0 评论 -
hive案例——影评
现有如此三份数据:1、users.dat 数据格式为: 2::M::56::16::70072对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释:用户id,性别,年龄,职业,邮政编码2、movies.dat 数据格式为: 2::Jumanji (1995):...原创 2018-04-09 19:16:42 · 3326 阅读 · 0 评论 -
hive解析json格式
{ "store": { "fruit": [ { "weight": 8, "type": "apple" }, { "weight": 9, "ty原创 2018-04-09 20:17:46 · 1578 阅读 · 0 评论 -
hive中日期与时间戳转换
转自:https://blog.csdn.net/shuangshaung_/article/details/53611188从1970-01-01 00:00:00 UTC到指定时间的秒数。总结:时间戳到日期时间,日期时间到时间戳,日期时间到日期。获取时间戳:select distinct unix_timestamp() from test_date;时间戳>>>>日期...转载 2018-04-09 21:54:32 · 9476 阅读 · 0 评论 -
hive案例——微博
数据样例:[{"beCommentWeiboId":"","beForwardWeiboId":"","catchTime":"1387157643","commentCount":"682","content":"喂!2014。。。2014!喂。。。","createTime"原创 2018-04-09 22:43:45 · 1503 阅读 · 1 评论 -
hive自定义函数
hive的自定义函数包括UDF,UDAF,UDTF三种类型UDF是单行函数自定义时需要继承UDF类,然后实现evaluate方法即可代码例子:package test;import java.util.ArrayList;import org.apache.hadoop.hive.ql.exec.UDF;public class ConnStr2 extends UDF{ //...原创 2018-04-15 16:45:39 · 394 阅读 · 0 评论 -
hive数据倾斜优化
1、什么是数据倾斜?由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点2、主要表现:任务进度长时间维持在 99%或者 100%的附近,查看任务监控页面,发现只有少量 reduce子任务未完成,因为其处理的数据量和其他的 reduce 差异过大。单一 reduce 处理的记录数和平均记录数相差太大,通常达到好几倍之多,最长时间远大于平均时长。3、容易数据倾斜情况4、产生数据倾斜的原因:A:k...原创 2018-04-10 11:22:24 · 13354 阅读 · 2 评论 -
hadoop、hive小文件合并
小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte(元数据的记录),如果有1000 0000个小文件,每个文件占用一个block,则namenode大约需要2G空间。如果存储1亿个文件,则namenode需要20G空间。这样name...原创 2018-04-10 18:11:34 · 1287 阅读 · 0 评论 -
hive on spark
原文来自这里概述1各个机器安装概况2下载和解压缩各种包3配置环境变量4修改hostname文件 4.1在3台机器上执行hostname命令 4.2编辑hosts文件5 Hadoop的安装和启动 5.1设置ssh免密码登录 5.2 创建一堆目录 5.3 对conf目录下的文件做配置 5.3.1修改c...转载 2018-05-09 10:59:32 · 295 阅读 · 0 评论 -
hive面试题以及解题思路
题目1:现有这么一批数据,现要求出:每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数三个字段的意思:用户名,月份,访问次数A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,...原创 2018-04-08 20:01:40 · 424 阅读 · 0 评论