TRX1024
码龄6年
关注
提问 私信
  • 博客:548,773
    社区:2
    548,775
    总访问量
  • 125
    原创
  • 2,185,686
    排名
  • 150
    粉丝

个人简介:字节内推,可私信~

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2018-09-08
博客简介:

TRX的博客

博客描述:
读书百遍,其义自见。
查看详细资料
个人成就
  • 获得385次点赞
  • 内容获得78次评论
  • 获得1,373次收藏
  • 代码片获得2,093次分享
创作历程
  • 2篇
    2024年
  • 19篇
    2022年
  • 15篇
    2021年
  • 25篇
    2020年
  • 38篇
    2019年
  • 50篇
    2018年
成就勋章
TA的专栏
  • Spark基础
    10篇
  • Flink
    17篇
  • 数据湖
    2篇
  • Doris
    10篇
  • yarn
    1篇
  • MapReduce
    1篇
  • Scala
    6篇
  • JVM
    3篇
  • Druid
    2篇
  • Python
  • Java基础
    17篇
  • 数据结构和算法
    9篇
  • 分布式
    1篇
  • MySQL
    7篇
  • HDFS
    1篇
  • maven
    1篇
  • Hadoop
    4篇
  • 采坑日记
    4篇
  • Hive基础
    12篇
  • linux
    5篇
  • Shell
    3篇
  • 大数据
    3篇
  • 前端基础
    1篇
  • Redis
    6篇
  • SSM
    9篇
  • Mybatis
  • ELK
    1篇
  • git
    2篇
  • Kafka
    2篇
  • 工具类
    5篇
  • Guava
    1篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive/SparkSQL中UDF/UDTF/UDAF的含义、区别、有哪些函数

即用户定义函数,UDF用于处理一行数据并返回一个标量值(单个值),这个值可以是字符串、数字、日期等。即用户定义聚集函数,UDAF用于执行自定义的聚合操作,作用于多行数据,并且产生一个输出数据行,UDAF函数的输入与输出值是n:1的关系。UDTF函数的输入与输出值是1:n的关系。explode()、posexplode()、json_tuple()等。datediff()、substr()、concat()等。计算日期之间的差异、字符串处理、数据格式化等。avg()、sum()、count()等。
原创
发布博客 2024.01.02 ·
1136 阅读 ·
9 点赞 ·
0 评论 ·
10 收藏

Hive/SparkSQL中Map、Array的基本使用和转换

语法: map (key1, value1, key2, value2, …)说明:根据输入的key和value对构建map类型。
原创
发布博客 2024.01.02 ·
3508 阅读 ·
17 点赞 ·
1 评论 ·
11 收藏

HIVE/SQL 实现同一列数据累加和累乘

以上是对数的一些运算性质,其中我重点圈出了两个性质,这将是我们使用 hive sql 实现同一列数据累乘的关键;1)左边的红框中,两个底数(a)相同的对数相加 = 以a为底(N*M)的对数,其中(N*M)就是我们想要的计算结果,应该如何获取(N*M)呢?2)看右边红框的性质,我们可以利用这个性质获取(N*M)映射到 hive ,可以将同一列的相乘转为同一列的对数相加,在求真数即可;具体做法:
原创
发布博客 2022.09.14 ·
4817 阅读 ·
2 点赞 ·
1 评论 ·
12 收藏

Hive SQL 五大经典面试题

第 1 题 连续问题第 2 题 分组问题第 3 题 间隔连续问题第 4 题 打折日期交叉问题第 5 题 同时在线问题
原创
发布博客 2022.04.04 ·
14802 阅读 ·
25 点赞 ·
11 评论 ·
188 收藏

Hive 如何合理设置 Map 及 Reduce 数

一、概述1.通常情况下,作业会通过 input 的目录产生一个或者多个 map 任务。主要的决定因素有:input 的文件总个数,input 的文件大小,集群设置的文件块大小。2.是不是 map 数越多越好?答案是否定的。如果一个任务有很多小文件(远远小于块大小128m),则每个小文件也会被当做一个块,用一个 map 任务来完成,而一个 map 任务启动和初始化的时间远远大于逻辑处理的时间,就会造成很大的资源浪费。而且,同时可执行的 map 数是受限的。3.是不是保证每个 map 处理接近 12
原创
发布博客 2022.04.03 ·
6017 阅读 ·
3 点赞 ·
0 评论 ·
32 收藏

MySQL/Hive 常用窗口函数详解及相关面试题

一、窗口函数:窗口函数也称为OLAP函数,OLAP 是OnLine Analytical Processing 的简称,意思是对数据库数据进行实时分析处理。例如,市场分析、创建财务报表、创建计划等日常性商务工作。窗口函数就是为了实现OLAP 而添加的标准SQL 功能。0.窗口函数的分类按照功能划分:序号函数:row_number() / rank() / dense_rank() 分布函数:percent_rank() / cume_dist() 前后函数:lag() / lead()
原创
发布博客 2022.04.02 ·
4456 阅读 ·
17 点赞 ·
0 评论 ·
62 收藏

Hive 行转列、列转行的应用场景和解决方案

一、行转列1.相关函数CONCAT(string A/col, string B/col…) 返回输入字符串连接后的结果,支持任意个输入字符串; CONCAT_WS(separator, str1, str2,...) 它是一个特殊形式的 CONCAT()。 第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。 如果分隔符是 NULL,返回值也将为 NULL。 这个函数会跳过分隔符参数后的任何 NULL 和空字符串。分隔符将被加到被连接的字符串之间; 注意:
原创
发布博客 2022.04.02 ·
1722 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

《Hive官方文档》Hive - Lateral View 与 explode() 结合使用

官网链接:Hive官方文档一、Lateral View 语法lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias)*fromClause: FROM baseTable (lateralView)*Lateral View用于UDTF(user-defined table generating functions)中将行转成列,例如explode()。二、示例
原创
发布博客 2022.04.02 ·
977 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Hive 官网函数全列表(聚合函数/日期函数/字符串函数...)

一、数学函数二、聚合函数 返回类型 函数名 描述 BIGINT count(*) 计算总行数,包括含有NULL值的行。 BIGINT count(expr) 计算expr表达式非NULL的行的数量 BIGINT count(DISTINCT expr[, expr_.]) 计算expr表达式去重后且非NULL的行的数量 DOUBLE su
原创
发布博客 2022.04.02 ·
1848 阅读 ·
0 点赞 ·
0 评论 ·
13 收藏

《Hive官方文档》Hive - Joins 学习笔记

官网链接:Hive官方文档hive 0.13.0以后的版本,支持了隐式join标记。例如SELECT * FROM table1 t1, table2 t2, table3 t3 WHERE t1.id = t2.id AND t2.id = t3.id AND t1.zipcode = '02535'这样的写法,等同于SELECT * FROM table1 t1 JOIN table2 t2 ON t1.id = t2.id AND t1.zipcode = '02535' JOI
原创
发布博客 2022.04.01 ·
1126 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Flink作业开发清单(5)——Time/时间

引用自Time 深度解析Flink对多种时间语义的支持,是它的优势之一;Flink既支持Processing Time,又支持Event Time:Processing Time 是来模拟我们真实世界的时间,其实就算是处理数据的节点本地时间也不一定就是完完全全的我们真实世界的时间,所以说它是用来模拟真实世界的时间。而 Event Time 是数据世界的时间,就是我们要处理的数据流世界里面的时间。关于他们的获取方式,Process Time 是通过直接去调用本地机器的时间,而 Event Tim
原创
发布博客 2022.03.25 ·
2141 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Flink作业开发清单(4)——State/状态

建议阅读:Working with State 状态管理及容错机制如果当前的计算依赖于前面数据产生的结果,那就需要依赖状态;比如Word Count,需要通过状态来保存前面数据的统计结果。状态类型Flink Managed State分为两类,一是Keyed State,二是Operator State。用户经常用到的是Keyed State。Keyed State几种 Keyed State 的差异具体体现在:ValueState 存储单个值,比如 Wordcount,.
原创
发布博客 2022.03.25 ·
553 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink作业开发清单(3)——Checkpoint

CheckpointCheckpoint功能可以保证作业失败重启或升级重启后,从上次"离开"的位置继续运行;比如Flink Kafka就是通过Checkpoint记录消费的Offset记录的;如果没有开启Checkpoint,那么每次重启作业可能会重复消费数据或者丢失数据(与配置相关);1.开启CheckpointStreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();Che
原创
发布博客 2022.03.25 ·
1464 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Flink作业开发清单(2)——常用接口

开发Flink作业过程需要用到的一些常用接口:一、创建StreamExecutionEnvironmentStreamExecutionEnvironment主要用来配置一些运行参数以及创建Source。StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();配置开启Checkpoint(方便作业失败后自动恢复):env.enableCheckpointing(600
原创
发布博客 2022.03.25 ·
1828 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Flink作业开发清单(1)——依赖管理

Flink相关的依赖:<!-- java --><dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId> <version>${flink.version}</version> <scope>provided</scope></dependency
原创
发布博客 2022.03.25 ·
2092 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【2】数据湖架构中 Iceberg 的核心特性

在业界的数据湖方案中有 Hudi、Iceberg 和 Delta 三个关键组件可供选择。一、Iceberg 是什么?Iceberg 官网中是这样定义的:Apache Iceberg is an open table format for huge analytic datasets即 Iceberg 是大型分析型数据集上的一个开放式表格式。通过该表格式,将下层的存储介质(HDFS、S3、OSS等)、文件格式(Parquet、Avro、ORC等)与上层计算引擎(Flink、Spark、.
原创
发布博客 2022.03.21 ·
5514 阅读 ·
7 点赞 ·
3 评论 ·
18 收藏

数据湖概念以及数据湖产生的背景和价值

一、数据湖的概念数据湖是一个集中式存储库,允许以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。是构建在低成本分布式存储之上,提供更好事物和性能支持的统一数据存储系统。典型分层如下图所示:最底层为存储层:一般依赖HDFS或者公有云存储(比如S3)保存数据;数据格式为开放格式,比如Parquet或者ORC; 中间层为数据表抽象层:它的关键作用在于提
原创
发布博客 2022.03.21 ·
5220 阅读 ·
8 点赞 ·
3 评论 ·
26 收藏

《Spark官方文档》Web UI -学习笔记

Apache Spark 提供了一套 Web 用户界面(UI),您可以使用它们来监视 Spark 集群的状态和资源消耗。如:一、Jobs 页面Jobs 页面展示了Spark应用程序中所有作业的摘要信息以及每个作业的详细信息页。摘要页面显示整体信息,例如所有作业的状态、持续时间和进度以及整个事件的时间线。点击某个job将进入该job的详细信息页面,会进一步显示时间时间线、DAG可视化效果以及作业的所有stages。Jobs 页中显示的信息是:User: 当前Spark任务提
原创
发布博客 2022.03.10 ·
2610 阅读 ·
8 点赞 ·
0 评论 ·
14 收藏

《Spark官方文档》监控和工具-学习笔记

官网链接:Monitoring and Instrumentation - Spark 3.2.1 Documentation有几种方法可以监控Spark应用程序:Web UI、metrics 以及外部工具。Web UI每个SparkContext都会启动一个web UI,其默认端口为4040,并且这个web UI能展示很多有用的Spark应用相关信息。包括:一个stage和task的调度列表 一个关于RDD大小以及内存占用的概览 运行环境相关信息 运行中的执行器相关信息你只需打
原创
发布博客 2022.03.10 ·
2262 阅读 ·
2 点赞 ·
0 评论 ·
7 收藏

Flink提取EventTime并生成Watermark几种常用的方式

设置eventTime的方式分两种情况:升序数据提取时间戳 直接使用:.assignAscendingTimestamps(_.timestamp * 1000L) 乱序数据提取时间戳,有三种种构造方式(1.10版本只有前两种,flink版本1.11以后建议使用方式三) 方式一:AssignerWithPeriodicWatermarks 周期性的生成 watermark,默认周期是200ms,也可以通过setAutoWatermarkInterval设置周期时间 常用的实现类是:B
原创
发布博客 2022.02.26 ·
2466 阅读 ·
2 点赞 ·
2 评论 ·
5 收藏
加载更多