自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

呵呵小短腿的博客

腿短,只能奋力的奔跑

  • 博客(14)
  • 问答 (1)
  • 收藏
  • 关注

原创 clickhouse join内存溢出

在一个离线工作流中任务报错接下来是排查步骤和处理方法。

2024-06-26 18:32:28 412

原创 数据实时展示demo

实时展示GMV 前后端demo

2023-08-31 15:06:23 80

原创 paimon-Lookup Joins

paimon lookup join

2023-07-07 17:45:31 262 1

原创 Apache Paimon-并发写

paimon并发写

2023-07-03 11:56:56 483 1

原创 apache paimon-update

Apache Paimon(incubating) is a streaming data lake platform that supports high-speed data ingestion, change data tracking and efficient real-time analytics.

2023-06-29 20:15:43 465 1

原创 flink提交流程[shell到user class]

然后调用 ClientUtils.executeProgram方法。在run方法内会做一系列的运行的前置动作。通过反射最终去执行用户代码。

2023-06-05 16:00:02 103 1

原创 解决spark saveAsTable生成的parquet格式的表的问题

解决spark saveAsTable生成的parquet格式的表的问题问题一:直接在命令行创建的parquet格式的表通过spark saveAsTable 无法写入

2020-06-18 16:06:49 3138

原创 hive自定义行分隔符

首先交代一下背景:通过spring消费RMQ的数据写到hdfs,从一开始就预料到直接写textfile会有错行乱行的问题,所以一开始的方案是写parquet,经过验证后发现写parquet会有很多小文件(parquet文件落地后不能修改,不能追加),会对name node造成额外的压力,所以最终妥协写textfile 加自定义行分割符查看hive默认的textfile 的inputformat默认的TextInputFormat在hadoop-mapreduce-client-core包里面

2020-05-28 22:42:09 2156 1

原创 为xgboost搭建环境,升级glibc,gcc,和解决升级glibc之后的中文乱码问题

一:将xgboost源码包编译好之后,在spark上运行报错:…/lib64/libc.so.6: version `GLIBC_2.14’ not found解决办法:升级glibc,我选择的是升级到2.14下载glibc-2.14.tar.xz:下载地址解压:tar -xvf glibc-2.14.tar.xz进入解压之后的目录并安装: [root@test hadoop]# cd gl

2017-12-20 18:25:25 1813

转载 在Linux系统系自带的python shell 模式下支持tab键补全功能

官方文档的Example如下>>> import rlcompleter >>> import readline >>> readline.parse_and_bind("tab: complete") >>> readline. <TAB PRESSED> readline.__doc__ readline.get_line_buffer( readline.r

2017-11-27 11:41:15 520

原创 sparkstreaming接受kafka数据实时存入hbse并集成rest服务

1:整个项目的流程分析通过flume向kafka发送数据,然后通过sparkstreaming实时处理kafka的数据,处理完之后存到hbse,算法模型通过rest服务调用处理完的数据2:服务器各组件的版本java version “1.7.0_65”Scala 2.11.8Spark version 2.1.0flume-1.6.0kafka_2.10-0.8.2.1hbase-1

2017-11-22 15:13:08 1045

原创 hive的Transform定义函数

hive中的自定义函数支持Transform和UDF。UDF是将java代码打包上传,如果你不想写java代码也可以,那就用到了Transform,写一个脚本,通过脚本来处理。本文是写的Python脚本来处理json数据,作用是和上篇文章的UDTF一样(上篇文章)。一:编写Python脚本json-udtf.py#!/bin/pythonimport sysimport json

2017-06-21 15:12:11 8444 2

原创 nginx接受post数据,并在日志里记录数据

还是老规矩先说明一下业务需求:

2017-06-20 15:33:28 4130

原创 自定义UDTF和hive自定义函数的永久注册

package myUDF;import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.Date;import java.util.Iterator;import java.util.List;经过自定义函数处理后的数据:只处理name字段四:对于本需求有了详细的了解之后

2017-06-16 17:56:27 6332

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除