自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 hive作业split metadata size exceeded10000000解决方案

mapreduce.jobtracker. split.metainfo. maxsize =100000000或者等于-1(默认值是1000000)这个问题是因为表里小文件或者文件目录过多导致分片元数据超出限额。如果是分区表可以通过限制分区数据;

2024-02-26 17:53:32 468 1

原创 hive作业reduce阶段内存溢出

hive作业reduce阶段内存溢出可以设置参数尝试解决。

2024-02-08 09:50:48 348

原创 hive调优参数备选

作业map数量多可以提高每个map处理文件大小,默认是128M。

2024-02-08 09:37:55 312

原创 Sqoop同步异常字符处理

在hive同步到oracle或者pg中,有时候会遇到异常字符导致同步失败,需要把异常字符都提前处理。regexp_replace(字段,’\\n|\\r|\\t|\\\u0001|\\\u0000’,’’)

2024-01-23 11:23:13 385

原创 oracle一行转多行,即某列拆开,其他列不变

REGEXP_ SUBSTR(需要拆分的列,'[^,]+',1,LEVEL) as new_column。LENGTH(REGEXP_ REPLACE(需要拆分的列,',','')+ 1。1.使用connect by拆分,列里以逗号作为拆反符。and LEVEL= LENGTH(需要拆分的列)-id,-- id 在表里是唯一的。

2023-06-15 09:17:05 1204 2

原创 利用python进行excel格式处理并关联

import pandas as pd# 1.第一个excel文件和处理过程,如果读其他sheet需加参数如,sheet_name='test'excel_data=pd.read_excel('/Users/PycharmProjects/test_file/test01.xlsx')# print(excel_data.columns)# print(excel_data)# 对备注列单元格内根据换行符分割df1=excel_data['备注'].str.split('\n',expa.

2022-05-07 11:22:49 871

原创 python遍历文件夹下的pdf并转化成docx

利用python把pdf转docx

2022-01-31 16:16:10 869

原创 python对excel分列转多行

excel分裂转行

2022-01-31 15:53:19 989

原创 python正则替换excel中的数字或者点号等

python操作excel

2022-01-31 15:40:00 1532

原创 greenplumn无法进行DDL时

今天遇到一个问题,发现greenplumn有一个表无法进行DDL,经过排查,表现存在一个表级锁accessshare lock,通过管理员账号解锁后,仍无法进行DDL,最后经通过杀死相关系统进程,才将问题解决。方法如下:1.查询表级锁select a.locktype,a.database,a.pid,a.mode,a.relation,b.relnamefrom pg_locks...

2018-09-11 15:27:06 519

原创 tableau制作火柴图

1.首先准备excel数据源并导入tableau,数据如下:2.将人数拖到行标签,流程拖到列标签,分别对应条形图和圈3.把人数度量标记里“全部”颜色以及上下两个图的大小4.点击行标签的第二个总和(人数),选择双轴。火柴图效果就出来了。...

2018-09-11 15:14:28 2075

原创 Hadoop生态圈组件介绍

Hive:是一个数据仓库,提供大量结构化数据检索;Hbase:列式分布式数据库;Spark:基于内存的分布式计算框架Sqoop:是传统数据库和hadoop之间数据导入导出的工具Avro:是hadoop集群部署管理框架...

2018-03-17 18:51:12 1955

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除