HdxPyt-CSDN博客

原创 Hive-udf开发流程

第一步：拉取git项目地址：https://git.100tal.com/peiyou_bigdata/hive-udf.git java文件放置路径：hive-udf/src/main/java/com/bigdata/udf 第二步 1、编写udf代码(string转long型) package com.bigdata.udf; import org.apache.hadoop.hive.ql.exec.UDF; public class MD5ToLong extends UDF{ publ

2021-10-22 13:44:05 853

原创 2021-10-09

一、Airflow自定义宏函数 # 不同批次需限定分区 # 根据DAG下一个批次的逻辑执行时间计算出当前批次的东八区时间来确定分区 # ---- 定义小时级任务处理时区的函数,用于宏处理 ---------- import datetime from datetime import datetime from datetime import timedelta def partitions(next_exec_date, hours=7): """ 自定义 Jinja 方法，根据批次时间

2021-10-09 16:03:49 517

原创 Kafka高效读写

Kafka高效读写 1、页缓存技术 + 磁盘顺序写 2、零拷贝技术 3、最后的总结 “这篇文章来聊一下Kafka的一些架构设计原理，这也是互联网公司面试时非常高频的技术考点。 Kafka是高吞吐低延迟的高并发、高性能的消息中间件，在大数据领域有极为广泛的运用。配置良好的Kafka集群甚至可以做到每秒几十万、上百万的超高并发写入。那么Kafka到底是如何做到这么高的吞吐量和性能的呢？这篇文章我们来一点一点说一下。 1、页缓存技术 + 磁盘顺序写首先Kafka每次接收到数据都会往磁盘上去写，如下图所示。

2021-10-08 15:59:30 876

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人