自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 执行sparksql时报错,显示查询不到表分区下的子分区

报错如图解决办法:添加开启文件递归查询的参数set hive.mapred.supports.subdirectories=true;set mapreduce.input.fileinputformat.input.dir.recursive=true;

2021-08-23 14:36:07 529

原创 sqoop抽取mysql数据到Hive时报错

sqoop抽取mysql数据到Hive时报以下错误ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: Generating splits for a textual index column allowed only in case of "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" property passed a.

2021-01-11 19:38:01 302

原创 azkaban运行sparkSQL报错:azkaban.jobExecutor.utils.process.ProcessFailureException

azkaban运行SparkSQL时报如上错误,解决过程:1、首先百度查阅问题,有说是将文件格式设置为unix格式即可,于是检查发现格式并没有错。2、将cluster运行模式修改为了client模式,再次运行,查看到详细报错如下:然后有两种解决方法:1、增加动态分区数量(因为不知道增加多少合适,所以该方法我没有尝试,选用了第二种);2、将SparkSQL里,分区字段由原来的开头挪到最后一个位置,我是以dt为分区字段,具体如下:select column1,column2,co..

2020-11-13 10:13:09 1089

原创 做历史累计表时容易忽略的小坑(会导致数据量膨胀)

分享一个做数仓ETL表时遇到的小坑,哈哈,应该只适合数仓小白白看。。。。 所谓历史累计表,就是要记录下从数据产生到当前这一时段的累计,比如,某一天,日志进来一条数据,是一个用户访问了某个页面,这其中加入有如下信息:用户,访问页面名称,进入页面时间,退出页面时间。此时我们可以计算出该用户在这一天访问该页面的时长。一般情况下每天的日志是以增量形式入库,对于报表或者其他需求而言,...

2019-11-13 16:17:15 428

原创 从hive查询数据追加至文本(在linux操作)

1、在你的linux上建一个test.sh文本vi test.sh2、敲回车3、按i进入编辑模式,然后输入代码(下面只是我的demo)#!/bin/bashhive -e "select a.appcode,b.province,b.city,count(distinct a.open_id ) as memberfrom(select upper(mac) as mac,appco...

2019-10-25 10:11:47 641 2

原创 HAWQ的基本操作

1、进入hawqsource /usr/local/hawq/greenplum_path.shpsql -U gpadmin2、查看所有数据库\l;3、新建数据库create database test;4、切换数据库\c test;5、新建模式create schema rds;6、显示当前库下当前模式select current_schema();7、查...

2019-07-23 11:06:59 829

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除