![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
文章平均质量分 92
BackToMeNow
时间记录在2017-01-20............
展开
-
近期在写SQL时得到的一些经验
这阵子写SQL得到的一些经验,有些可能比较实用,有些可能比较笨重,但是总的来说都是减少了资源使用率,加快处理进程1、在登录日志中拿到近n日日活想法:当时的想法很简单啦,就是日期锁定在近n天然后采用row_number或者直接distinct进行去重计算uid即可问题:但是当做的时候发现还是有点小问题,因为给出的模板是要有四列,日期、日活、七日活、三十日活,这四列数据都要围绕其中的日期这一条件进行对应,那怎么把n日活归并到当前日期来呢,也就是说把上周的周活数据放到昨天(T+1)的行中。。实现:其实这里原创 2020-11-17 18:56:15 · 342 阅读 · 1 评论 -
spark通过降低cores数量来提高成功率,错误记录之memory limit
错误信息在执行一条sparkSQL时,出现以下报错,看起来像是函数或者倾斜问题RROR executor.Executor: Exception in task 14.1 in stage 1638.0 (TID 21893)java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Error while processing row (tag=0) {"key":{"reducesinkkey0":70原创 2020-10-16 15:27:26 · 357 阅读 · 0 评论 -
HIve修改字段或者增加字段后,Spark访问不生效问题
问题重现(例)当我将数据存储格式改变,或者增加一列的时候,我习惯使用了alter table add …来实现原来的表:ALTER TABLE test ADD COLUMNS (weight STRING) CASCADE加上一列weight字段后(这里使用cascade就是为了同步到hivemetastore),我用spark向表插入一个带有weight字段的表,此时抛出异常Exception in thread "main" org.apache.spark.sql.AnalysisEx原创 2020-05-28 14:59:42 · 2544 阅读 · 7 评论 -
配置HiveOnTez时,出现了找未知端口的情况,解决
1.问题重现https://bbs.csdn.net/topics/394525960,这是我提问的帖子,但是并没人理我。。。。。。。。2.解决历程1.深入源码,看到hive源码有读取这样的一个配置(不想再去找了)hive.downloaded.resources.dir,去寻找一些资源文件2.在配置文件中找到了这个配置,因为我在搭建hive的时候,图省事,就把所有的${system:...原创 2019-11-22 16:51:23 · 662 阅读 · 0 评论 -
sqoop1.4.7+hive2.3.6+hadoop2.8.5+mysql8.0兼容遇到的一些问题
sqoop 跑任务时,出现 Sqoop:Import failed:java.lang.ClassNotFoundException:org.apache.hadoop.hive.conf.HiveConf在profile中加入export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HIVE_HOME/lib/*在sqoop-env.sh加入HIVE_CON...原创 2019-09-21 15:36:50 · 1527 阅读 · 0 评论 -
Hive 2.0函数
https://www.cnblogs.com/MOBIN/p/5618747.html#1函数功能介绍原创 2019-09-14 21:13:18 · 95 阅读 · 0 评论 -
Hive 结构体
结构体-- 创建结构体表create table if not exists str1(name string,score struct<chinese:int,math:int,english:int>)row format delimited fields terminated by ' 'collection items terminated by ',';数...原创 2019-09-14 21:08:30 · 1012 阅读 · 0 评论 -
hive常用配置
hive.exec.mode.local.auto决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行)truehive.exec.mode.local.auto.inputbytes.max如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默认是 128兆。134217728Lhive...原创 2019-09-10 19:16:23 · 144 阅读 · 0 评论 -
Centos7下,hadoop2.8.5配合hive2.3.6 顺利兼容
推荐链接https://blog.csdn.net/qq_38924171/article/details/100186327如果出现,执行SQL语句失败,请在hive-site.xml中更改<property> <name>datanucleus.schema.autoCreateAll</name> <value>true&l...原创 2019-09-08 16:10:45 · 890 阅读 · 0 评论 -
Hive入门全程干货
一、Hive简介Facebook为了解决海量日志数据的分析而开发了Hive,后来开源给了Apache软件基金会。Hive是一种用类SQL语句来协助读写、管理那些存储在分布式存储系统上大数据集的数据仓库软件。Hive的几个特点:1. Hive最大的特点是通过类SQL来分析大数据,而避免了写MapReduce程序来分析数据,这样使得分析数据更容易。2. 数据是存储在HDFS...原创 2019-09-09 20:22:41 · 865 阅读 · 0 评论 -
Hive 严格模式
Hive严格模式严格模式阻挡5类查询:1、笛卡尔积set hive.mapred.mode=strict;select*from dy_part1 d1join dy_part2 d2;2、分区表没有分区字段过滤set hive.mapred.mode=strict;select*from dy_part1 d1where d1.dt='2019-09-09';...原创 2019-09-09 20:21:39 · 326 阅读 · 0 评论 -
Hive HQL & JOIN & explode
HQL语法原创 2019-09-09 20:20:50 · 841 阅读 · 0 评论 -
Hive DML语法
DML语法1. 向Hive中加载数据几种常用的方法---------------------------------------------------------1.1 加载到普通表可以将本地文本文件内容批量加载到Hive表中,要求文本文件中的格式和Hive表的定义一致,包括:字段个数、字段顺序、列分隔符都要一致。这里的user_info表的表定义是以\t作为列分隔符,所以准备好数据...原创 2019-09-09 20:20:20 · 185 阅读 · 0 评论 -
Hive DDL语法
DDL语法1. 数据库操作创建一个数据库会在HDFS上创建一个目录,Hive里数据库的概念类似于程序中的命名空间,用数据库来组织表,在大量Hive的情况下,用数据库来分开可以避免表名冲突。Hive默认的数据库是default。hive不能使用关键字、数字开始的字符串来作库表名,不区分大小写。1.1 创建数据库例子:hive> create database [if not ex...原创 2019-09-09 20:19:53 · 472 阅读 · 0 评论 -
初识Hive
一、Hive简介Facebook为了解决海量日志数据的分析而开发了Hive,后来开源给了Apache软件基金会。Hive是一种用类SQL语句来协助读写、管理那些存储在分布式存储系统上大数据集的数据仓库软件。Hive的几个特点:1. Hive最大的特点是通过类SQL来分析大数据,而避免了写MapReduce程序来分析数据,这样使得分析数据更容易。2. 数据是存储在HDFS...原创 2019-09-09 20:19:11 · 164 阅读 · 0 评论