自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (5)
  • 收藏
  • 关注

原创 spark推测执行引发的思考

终于到周五了,打开电脑查看集群运行情况,某个workflow原来执行完只需要1h,现在执行时间翻倍?workflow 历史执行时间 4:00-5:14workflow2 历史执行时间 5:00-5:56根据Start Time显示workflow在4:21开始执行,5:00被workflow2卡死,在workflow2 释放资源后,5:52又重新启动并执行成功的。于是调整work...

2019-05-31 11:26:59 367

原创 hive外部表文件丢失

又是新的一周,倒杯茶,打开电脑查看集群运行情况,没有一个程序报错?刚开心一会儿,结果查看数据好多空值??又是忙碌的早上,经过排查发现错误’/user/hive/tm_oil_level’路径不存在不可能啊,这是hive外部表路径,即使删除外部表也不会删除该目录,难道谁偷偷把该目录删除了,也没道理啊!新建外部表create external table if not exists tm_o...

2019-05-27 11:00:21 860

原创 Spark刷新当月数据的日期选择

昨天对数据发现4.30号没数据,神马情况?之前都是没问题的,赶紧查原因。。。根据设计文档,insert overwrite 刷新当月的分区数据目前的做法:create_date > date_format(current_date,'yyyy-MM-01')4.30号执行程序(更新4.1-4.30的数据)5.1号执行程序(更新5.1-5.1的数据)5.2号执行程序(更新5....

2019-05-23 14:07:50 342

原创 集群迁移hive表(无建表语句)

生产环境账号回收,需要把所有数据表迁移到测试环境!!!上百张表,已经找不到原始建表语句,只能自己想办法了。百度很久,最终决定通过shell把从集群上把建表语句下载下来:新建list_tables.sqluse db;show tables;新建show_create.sqluse db;show create table ${hiveconf:table};download_...

2019-05-22 17:48:14 250

原创 使用Hive处理敏感字段

使用regexp_replaceregexp_replace(address,"","")(1)匹配所有字符:select regexp_replace(address, '.*', '***') from table;(2)匹配指定字符:select regexp_replace('2016-06-05', '-', '') from table;(3)匹配特殊字符(换行符):...

2019-05-20 14:58:19 2118

原创 hive表数据迁移(生产集群->测试集群)

由于需要在测试环境测试hive表逻辑,但是测试集群没有相关表及数据,所以采用最简单的方式:通过hue从生产集群下载文件,然后通过hue上传到测试集群但是。。hive表是分区的而且每个分区下面都N多个小文件,于是编写shell脚本:#! /bin/bashmkdir -p ./tmp/tablerssc_array=("201901" "201902" "201903" "201904...

2019-05-17 11:28:37 678

原创 Java Api访问HDFS报错

Failed to connect to /192.168.1.1:50010 for block, add to deadNodes and continue. java.net.ConnectException: Connection timed out: no further information初步判断是集群IP映射问题,打开CM中HDFS配置,修改如下:打开配置(1) Name...

2019-05-06 14:08:08 547

druid数据分析原理与实践

Druid实时大数据分析原理与实践.pdf 高清,欧阳辰,数据仓库架构必备。

2019-06-25

大数据及其常用组件介绍

本TTP为大数据及其常用组件的基本介绍(hdfs hive hbase kafka spark kudu impala kylin streamsets)仅供参考。

2018-11-06

Apache Kylin操作流程

Apache Kylin操作流程截图分享,及配套文字讲解,仅做参考。

2018-06-27

n2n windows端

该文件对应csdn博客(n2n内网穿透搭建)中n2n本地服务器的windows端应用程序使用,请配套使用。

2018-05-23

window平台 ncat工具

windows平台下ncat工具,Netcat用于从TCP/UDP连接中读取或发送网络数据。(使用方法:ncat.exe -l -k -p 6666)

2018-03-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除