呵呵小短腿-CSDN博客

原创 clickhouse join内存溢出

在一个离线工作流中任务报错接下来是排查步骤和处理方法。

2024-06-26 18:32:28 763

原创 paimon-Lookup Joins

paimon lookup join

2023-07-07 17:45:31 467 2

原创 apache paimon-update

Apache Paimon(incubating) is a streaming data lake platform that supports high-speed data ingestion, change data tracking and efficient real-time analytics.

2023-06-29 20:15:43 990 1

原创 flink提交流程[shell到user class]

然后调用 ClientUtils.executeProgram方法。在run方法内会做一系列的运行的前置动作。通过反射最终去执行用户代码。

2023-06-05 16:00:02 210 1

原创解决spark saveAsTable生成的parquet格式的表的问题

解决spark saveAsTable生成的parquet格式的表的问题问题一：直接在命令行创建的parquet格式的表通过spark saveAsTable 无法写入

2020-06-18 16:06:49 3312

首先交代一下背景:通过spring消费RMQ的数据写到hdfs,从一开始就预料到直接写textfile会有错行乱行的问题，所以一开始的方案是写parquet，经过验证后发现写parquet会有很多小文件（parquet文件落地后不能修改，不能追加），会对name node造成额外的压力，所以最终妥协写textfile 加自定义行分割符查看hive默认的textfile 的inputformat默认的TextInputFormat在hadoop-mapreduce-client-core包里面

2020-05-28 22:42:09 2289 1

原创为xgboost搭建环境，升级glibc,gcc,和解决升级glibc之后的中文乱码问题

一：将xgboost源码包编译好之后，在spark上运行报错：…/lib64/libc.so.6: version `GLIBC_2.14’ not found解决办法：升级glibc，我选择的是升级到2.14下载glibc-2.14.tar.xz：下载地址解压：tar -xvf glibc-2.14.tar.xz进入解压之后的目录并安装： [root@test hadoop]# cd gl

2017-12-20 18:25:25 1969

转载在Linux系统系自带的python shell 模式下支持tab键补全功能

官方文档的Example如下>>> import rlcompleter >>> import readline >>> readline.parse_and_bind("tab: complete") >>> readline. <TAB PRESSED> readline.__doc__ readline.get_line_buffer( readline.r

2017-11-27 11:41:15 591

原创 sparkstreaming接受kafka数据实时存入hbse并集成rest服务

1：整个项目的流程分析通过flume向kafka发送数据，然后通过sparkstreaming实时处理kafka的数据，处理完之后存到hbse，算法模型通过rest服务调用处理完的数据2:服务器各组件的版本java version “1.7.0_65”Scala 2.11.8Spark version 2.1.0flume-1.6.0kafka_2.10-0.8.2.1hbase-1

2017-11-22 15:13:08 1096

原创 hive的Transform定义函数

hive中的自定义函数支持Transform和UDF。UDF是将java代码打包上传，如果你不想写java代码也可以，那就用到了Transform，写一个脚本，通过脚本来处理。本文是写的Python脚本来处理json数据，作用是和上篇文章的UDTF一样（上篇文章）。一：编写Python脚本json-udtf.py#!/bin/pythonimport sysimport json

2017-06-21 15:12:11 8979 1

原创 nginx接受post数据，并在日志里记录数据

还是老规矩先说明一下业务需求：

2017-06-20 15:33:28 5026

原创自定义UDTF和hive自定义函数的永久注册

package myUDF;import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.Date;import java.util.Iterator;import java.util.List;经过自定义函数处理后的数据：只处理name字段四：对于本需求有了详细的了解之后

2017-06-16 17:56:27 6928