lz_matlab
码龄5年
关注
提问 私信
  • 博客:23,430
    社区:127
    问答:6
    23,563
    总访问量
  • 41
    原创
  • 438,188
    排名
  • 918
    粉丝
  • 8
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:安徽省
  • 加入CSDN时间: 2020-04-05
博客简介:

asdsdwuwang的博客

博客描述:
专注于大数据
查看详细资料
  • 原力等级
    当前等级
    3
    当前总分
    346
    当月
    2
个人成就
  • 获得151次点赞
  • 内容获得8次评论
  • 获得239次收藏
  • 代码片获得445次分享
创作历程
  • 1篇
    2024年
  • 16篇
    2023年
  • 24篇
    2022年
成就勋章
TA的专栏
  • 数据治理
    1篇
  • Flink
    3篇
  • Hive
    9篇
  • Java
    13篇
  • linux
    3篇
  • 面试集锦
    2篇
  • scala
    2篇
  • 数据仓库
  • MySql
    2篇
兴趣领域 设置
  • 编程语言
    pythonjavascala
  • 大数据
    sqlmysqlhadoophivesparkflumeelasticsearchkafkaflinkpostgresqlsqlserverhdfsmapreduceclouderaambarisqoopodps大数据数据仓库etletl工程师clickhouse
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flink 重启策略和故障恢复策略

所以最好的配置方法是:对于没有开启 checkpoint 的任务,不配置重启策略, 开启 checkpoint 的任务,配置重启策略,并配置默认的重启次数。restart-strategy.exponential-delay.attempts-before-reset-backoff 默认值 infinite ,如果重新启动策略已设置为指数延迟,则Flink在作业失败之前重试执行的次数。也就是当作业发生异常时,如果上一次异常发生在 6 分钟之前,则重试的延迟时间重置为 1 秒,当前的重试计数重置为 1。
原创
发布博客 2024.06.25 ·
1102 阅读 ·
11 点赞 ·
0 评论 ·
19 收藏

Flink 状态管理

通常,我们首先会创建一个 Keyed 或 Non-Keyed 的 Data Stream,然后再创建一个 Broadcasted Stream,最后通过 Data Stream 来连接(调用 connect 方法)到 Broadcasted Stream 上,这样实现将 Broadcast State 广播到 Data Stream 下游的每个 Task 中。KS:表示 Flink 程序从最上游的 Source Operator 开始构建 Stream,当调用 keyBy 时所依赖的 Key 的类型。
原创
发布博客 2023.12.07 ·
1068 阅读 ·
27 点赞 ·
0 评论 ·
17 收藏

Flink 运行架构

接收器,Flink 将转换计算后的数据发送的地点 ,你可能需要存储下来,Flink 常见的 Sink 大概有如下几类:写入文件、打印出来、写入 socket 、自定义的 sink。Flink 的所有操作都称之为 Operator,客户端在提交任务的时候会对 Operator 进行优化操作,能进行合并的 Operator 会被合并为一个 Operator,合并后的 Operator 称为 Operator chain,实际上就是一个执行链,每个执行链会在 TaskManager 上一个独立的线程中执行。
原创
发布博客 2023.12.07 ·
1197 阅读 ·
22 点赞 ·
0 评论 ·
16 收藏

Flink 简介

Flink 起源于 Stratosphere 项目,Stratosphere 是在 2010~2014 年由 3 所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014 年 4 月 Stratosphere 的代码被复制并捐赠给了 Apache 软件基金会,参加这个孵化项目的初始成员是 Stratosphere 系统的核心开发人员,2014 年 12 月,Flink 一跃成为 Apache 软件基金会的顶级项目。
原创
发布博客 2023.12.07 ·
998 阅读 ·
27 点赞 ·
0 评论 ·
20 收藏

大数据治理

包括资产治理、数据质量监控、数据指标体系的建设等。其实数据治理的范围很⼴,包含数据本⾝的管理、数据安全、数据质量、数据成本等。在DAMA 数据管理知识体系指南中,数据治理位于数据管理“车轮图”的正中央,是数据架构、数据建模、数据存储、数据安全、数据质量、元数据管理、主数据管理等10大数据管理领域的总纲,为各项数据管理活动提供总体指导策略。
原创
发布博客 2023.11.29 ·
1045 阅读 ·
18 点赞 ·
0 评论 ·
20 收藏

ClickHouse集群搭建从0到1

root@localhost.localdomain:/ # ls /etc/clickhouse-serverconfig.xml users.xml/var/lib/clickhouse/var/lib/clickhouse/tmp//var/log/clickhouse-server/etc/rc.d/init.d/clickhouse-serverroot@localhost.localdomain:/ # file /etc/rc.d/init.d/clickhouse-server/e
原创
发布博客 2023.11.29 ·
902 阅读 ·
20 点赞 ·
0 评论 ·
21 收藏

git详细安装和使用

版本控制系统(Version Control System):是一种记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统。版本控制系统不仅可以应用于软件源代码的文本文件,而且可以对任何类型的文件进行版本控制。常见的版本控制系统有:cvs、svn、gitGit是一款免费、开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。
原创
发布博客 2023.11.28 ·
559 阅读 ·
11 点赞 ·
0 评论 ·
8 收藏

ChatGPT的技术详解和产业未来.pdf

发布资源 2023.11.28 ·
pdf

大数据命令全集

输出:2021-08-31--上个月第一天输出:2021-07-01--上个月最后一天输出:2021-07-31-- 获取当月第一天输出:2021-08-01-- 获取当月最后一天输出:2021-08-31。
原创
发布博客 2023.04.27 ·
191 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive窗口函数

在SQL中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数。窗口函数又叫OLAP函数/分析函数,窗口函数兼具分组和排序功能。窗口函数最重要的关键字是 partition by 和 order by具体语法如下:XXX over (partition by xxx order by xxx)特别注意:over()里面的 pa
原创
发布博客 2023.04.27 ·
92 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive大厂面试题

小伙伴们在阅读时注意下,在上面的文章(Hive千亿级数据倾斜解决方案)中,有一处sql出现了上述问题(举例的时候原本是想使用left join的,结果手误写成了join)。:Hive是在0.7版本之后支持索引的,在0.8版本后引入bitmap索引处理器,在3.0版本开始移除索引的功能,取而代之的是2.3版本开始的物化视图,自动重写的物化视图替代了索引的功能。hive在指定列上建立索引,会产生一张索引表(Hive的一张物理表),里面的字段包括:索引列的值、该值对应的HDFS文件路径、该值在文件中的偏移量。
原创
发布博客 2023.04.01 ·
115 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive存储与压缩

上图展示了一个Parquet文件的内容,一个文件中可以存储多个行组,文件的首位都是该文件的Magic Code,用于校验它是否是一个Parquet文件,Footer length记录了文件元数据的大小,通过该值和文件长度可以计算出元数据的偏移量,文件的元数据中包括每一个行组的元数据信息和该文件存储数据的Schema信息。查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。
原创
发布博客 2023.04.01 ·
81 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive表类型

Hive的基本数据类型有:。Hive的集合类型有:。Hive主要有四种数据模型(即表):内部表、外部表、分区表和桶表。表的元数据保存传统的数据库的表中,当前hive只支持Derby和MySQL数据库。Hive中的内部表和传统数据库中的表在概念上是类似的,Hive的每个表都有自己的存储目录,除了外部表外,所有的表数据都存放在配置在文件的目录下。创建内部表:#2.3 Hive 外部表被external修饰的为外部表(external table),外部表指向已经存在在Hadoop HDFS上的数据,除了在删
原创
发布博客 2023.04.01 ·
130 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive表操作

Hive表的实质是(将超大表的数据按指定标准细分到指定目录),且分区的字段不属于Hive表中存在的字段;的实质是(将超大文件的数据按指定标准细分到分桶文件),且分桶的字段必须在Hive表中存在。需要Hive表分桶的时候,我们可以观察到Reduce的任务数量 = 分桶的数量,也就是最终产生的分桶文件的个数,因为分桶表就是通过MapReduce任务计算而来。由此可见,其实桶的概念就是MapReduce的分区的概念,两者完全相同。
原创
发布博客 2023.04.01 ·
259 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive SQL底层执行原理

本节结构采用宏观着眼,微观入手,从整体到细节的方式剖析 Hive SQL 底层原理。第一节先介绍 Hive 底层的整体执行流程,然后第二节介绍执行流程中的 SQL 编译成 MapReduce 的过程,第三节剖析 SQL 编译成 MapReduce 的具体实现原理。
原创
发布博客 2023.04.01 ·
371 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive解析Json数组超全讲解

在Hive中会有很多数据是用Json格式来存储的,如开发人员对APP上的页面进行埋点时,会将多个字段存放在一个json数组中,因此数据平台调用数据时,要对埋点数据进行解析。接下来就聊聊Hive中是如何解析json数据的。结果:namezhangsan如果既要解析name字段,也解析age字段,则可以这样写:但是如果要解析的字段有很多,再这样写就太麻烦了,所以就有了 这个函数。结果:nameagezhangsan18注意:上面的函数中没有
原创
发布博客 2023.04.01 ·
2922 阅读 ·
7 点赞 ·
6 评论 ·
25 收藏

Hive企业级性能优化

Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。但是如果我们只局限于会使用Hive,而不考虑性能问题,就难搭建出一个完美的数仓,所以Hive性能调优是我们大数据从业者必须掌握的技能。本文将给大家讲解Hive性能调优的一些方法及技巧。当我们发现一条SQL语句执行时间过长或者不合理时,我们就要考虑对SQL进行优化,优化首先得进行问题排查,那么我们可以通过哪些方式进行排查呢。经常使用关系型数据库的同学可能知道关系型数据库的优化的诀窍-看执行计划。 如O
原创
发布博客 2023.04.01 ·
114 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive Sql 大全(hive函数,hive表)

本节基本涵盖了Hive日常使用的所有SQL,因为SQL太多,所以将SQL进行了如下分类: 一、DDL语句(数据定义语句):对数据库的操作:包含创建、修改数据库对数据表的操作:分为内部表及外部表,分区表和分桶表二、DQL语句(数据查询语句):单表查询、关联查询hive函数:包含聚合函数,条件函数,日期函数,字符串函数等行转列及列转行:lateral view 与 explode 以及 reflect窗口函数与分析函数其他一些窗口函数UD。
原创
发布博客 2023.03.04 ·
2309 阅读 ·
3 点赞 ·
0 评论 ·
51 收藏

Hive概览

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。其本质是将SQL转换为MapReduce/Spark的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以理解为一个将SQL转换为MapReduce/Spark的任务的工具,甚至更进一步可以说hive就是一个MapReduce/Spark Sql的客户端为什么要使用hive?
原创
发布博客 2022.12.19 ·
119 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

服务器新加磁盘进行挂载

最后将挂载命令写入/etc/fstab,或者直接将上面的挂载命令开机执行,即写到/etc/rc.local文件。挂载命令:mount -t ext4 -o defaults /dev/vdb /app。命令:mkfs -t ext4 /dev/vdb。命令:fdisk -l 或者 lsblk。2、格式化新加的磁盘 /dev/vdb。新建目录命令:mkdir /app。命令:df -h 或者 lsblk。命令:vim /etc/fstab。添加上面的挂载的命令到该文件并保存。3、新建挂载目录、挂载磁盘。
原创
发布博客 2022.12.19 ·
2106 阅读 ·
0 点赞 ·
0 评论 ·
16 收藏
加载更多