仓库管理媛Zo蒙u-CSDN博客

原创执行sparksql时报错，显示查询不到表分区下的子分区

报错如图解决办法：添加开启文件递归查询的参数set hive.mapred.supports.subdirectories=true;set mapreduce.input.fileinputformat.input.dir.recursive=true;

2021-08-23 14:36:07 529

原创 sqoop抽取mysql数据到Hive时报错

sqoop抽取mysql数据到Hive时报以下错误ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: Generating splits for a textual index column allowed only in case of "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" property passed a.

2021-01-11 19:38:01 302

原创 azkaban运行sparkSQL报错：azkaban.jobExecutor.utils.process.ProcessFailureException

azkaban运行SparkSQL时报如上错误，解决过程：1、首先百度查阅问题，有说是将文件格式设置为unix格式即可，于是检查发现格式并没有错。2、将cluster运行模式修改为了client模式，再次运行，查看到详细报错如下：然后有两种解决方法：1、增加动态分区数量（因为不知道增加多少合适，所以该方法我没有尝试，选用了第二种）；2、将SparkSQL里，分区字段由原来的开头挪到最后一个位置，我是以dt为分区字段，具体如下：select column1,column2,co..

2020-11-13 10:13:09 1089

原创做历史累计表时容易忽略的小坑（会导致数据量膨胀）

分享一个做数仓ETL表时遇到的小坑，哈哈，应该只适合数仓小白白看。。。。所谓历史累计表，就是要记录下从数据产生到当前这一时段的累计，比如，某一天，日志进来一条数据，是一个用户访问了某个页面，这其中加入有如下信息：用户，访问页面名称，进入页面时间，退出页面时间。此时我们可以计算出该用户在这一天访问该页面的时长。一般情况下每天的日志是以增量形式入库，对于报表或者其他需求而言，...

2019-11-13 16:17:15 428

原创从hive查询数据追加至文本(在linux操作)

1、在你的linux上建一个test.sh文本vi test.sh2、敲回车3、按i进入编辑模式，然后输入代码（下面只是我的demo）#!/bin/bashhive -e "select a.appcode,b.province,b.city,count(distinct a.open_id ) as memberfrom(select upper(mac) as mac,appco...

2019-10-25 10:11:47 641 2

原创 HAWQ的基本操作

1、进入hawqsource /usr/local/hawq/greenplum_path.shpsql -U gpadmin2、查看所有数据库\l;3、新建数据库create database test;4、切换数据库\c test;5、新建模式create schema rds;6、显示当前库下当前模式select current_schema();7、查...

2019-07-23 11:06:59 829

weixin_42320809的博客

原创执行sparksql时报错，显示查询不到表分区下的子分区

原创 sqoop抽取mysql数据到Hive时报错

原创 azkaban运行sparkSQL报错：azkaban.jobExecutor.utils.process.ProcessFailureException

原创做历史累计表时容易忽略的小坑（会导致数据量膨胀）

原创从hive查询数据追加至文本(在linux操作)

原创 HAWQ的基本操作

空空如也

空空如也

原创 执行sparksql时报错，显示查询不到表分区下的子分区

原创 sqoop抽取mysql数据到Hive时报错

原创 azkaban运行sparkSQL报错：azkaban.jobExecutor.utils.process.ProcessFailureException

原创 做历史累计表时容易忽略的小坑（会导致数据量膨胀）

原创 从hive查询数据追加至文本(在linux操作)

原创 HAWQ的基本操作

空空如也

空空如也

原创执行sparksql时报错，显示查询不到表分区下的子分区

原创做历史累计表时容易忽略的小坑（会导致数据量膨胀）

原创从hive查询数据追加至文本(在linux操作)