自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

克里斯的博客

把学习当作一生的事情

  • 博客(64)
  • 收藏
  • 关注

原创 2023秋招—大数据开发面经—多益网络

大数据开发面经

2022-11-17 10:00:26 572

原创 2023秋招—大数据开发面经—网易云音乐

大数据开发面经

2022-11-17 09:57:31 285

原创 2023秋招—大数据开发面经—蚂蚁金融

大数据开发

2022-11-17 09:56:13 287

原创 2023秋招—大数据开发面经—联友科技

大数据开发

2022-11-17 09:52:16 266

原创 2023秋招—大数据开发面经—美的

大数据开发

2022-11-17 09:50:50 178

原创 2023秋招—大数据开发面经—杰创智能科技

大数据开发

2022-11-17 09:44:37 146

原创 2023秋招—大数据开发面经—卓望数码

大数据开发面经

2022-11-17 09:41:42 190

原创 2023秋招—大数据开发面经—闻泰科技

大数据面经

2022-11-17 09:36:37 99

原创 【Hive】Hive怎么写自定义函数(UDF、UDTF、UDAF)

Hive的自定义函数UDF UDAF UDTF

2022-08-27 15:23:15 363

原创 【代码】Java 逐行读取文件 -> 处理 -> 输出到文件

Java 逐行读取文件 -> 处理 -> 输出到文件。

2022-08-16 15:33:07 145

原创 【Hive】Hive数据倾斜有什么表现?如何定位问题?如何解决问题?

Hive数据倾斜的本质数据倾斜的表现如何定位问题?常见问题以及解决方案

2022-04-21 17:14:47 1447

原创 【MySQL】什么是B+树索引?MySQL索引和存储引擎有哪些?如何进行数据库优化?

什么是B+树索引?MySQL索引和存储引擎有哪些?如何进行数据库优化?

2022-04-18 19:58:56 392

原创 【数据库】什么是事务?什么是ACID?如何解决并发的一致性问题?如何实现MVCC?一张长图就够了

数据库系统原理基础知识:事务、ACID、并发一致性问题、封锁、MVCC、Next-key locks

2022-04-18 19:55:27 2436

原创 【Kafka】Kafka的API—Producer API、Consumer API和自定义 Interceptor

Kafka的API—Producer API、Consumer API和自定义 Interceptor

2022-04-16 15:40:36 94

原创 【Flink】Table API 和 SQL——基本程序框架、聚合查询、TopN查询、自定义函数

Table API 和 SQL——基本程序框架、聚合查询、TopN查询、自定义函数

2022-04-16 12:05:53 1908

原创 【Flink】状态编程——值状态、列表状态、映射状态、聚合状态、广播状态(内含编程模板和案例)

状态编程——值状态、列表状态、映射状态、聚合状态、广播状态(内含编程模板和案例)

2022-04-16 11:30:48 1623

原创 【HTTP】什么是HTTP?什么是URL?什么是Cookies?HTTPS为何比HTTP更安全?一张长图告诉你答案

HTTP的基本概念、相关方法、状态码、Cookies、缓存、HTTPS

2022-04-15 18:43:17 161

原创 【操作系统】什么是虚拟内存?页面置换算法有哪些?磁盘结构是怎样的?有哪些磁盘调度算法?一张图解决这些问题

操作系统的内存管理和设备管理

2022-04-15 18:39:10 283

原创 【操作系统】什么是并发和并行?什么是线程和进程?操作系统的进程管理有哪些?如何解决死锁问题?一张图告诉你

操作系统的基本特征、基本功能、进程管理和死锁

2022-04-15 18:35:45 430

原创 【计算机网络】网络体系结构、各层内容和协议,看这篇就够了

脑图有点长,建议放大拖动观看~~参考资料:LeetCode —— 《校招基础知识详解》

2022-04-14 15:56:53 59

原创 【kubernetes】K8S的组件有哪些?Namespace是啥?Pod、Label、Deployement、Service是什么?长脑图给你说说

K8S组件概述和详解:K8S的Namespace、Pod、Label、Deployement、Service

2022-04-12 16:21:07 21

原创 【Kubernetes】K8S如何进行资源管理?什么是Yaml语言?长脑图告诉你3种资源管理方式

K8S的3种资源管理方式、Yaml语言

2022-04-12 16:19:11 51

原创 【Kubernetes】K8S是什么?它的主要功能是什么?有哪些组件?思维导图跟你说说

K8S的主要功能、组件、相关概念

2022-04-12 16:17:00 35

原创 【MongoDB】MongoDB是什么?优势是什么?常见命令有哪些?详情见思维导图

MongoDB的基础概念、优势、索引、Mongoose、常见操作指令

2022-04-12 13:48:12 771

原创 【Flink】Flink的多流转换——分流、合流、双流联结

多流转换可以分为“分流”和“合流”两大类。目前分流的操作一般是通过侧输出流(side output)来实现,而合流的算子比较丰富,根据不同的需求可以调用 union、connect、join 以及 coGroup 等接口进行连接合并操作。

2022-04-04 21:43:14 2543 3

原创 【Flink】Flink的处理函数、TopN案例和侧输出流

在更底层,我们可以不定义任何具体的算子(比如 map,filter,或者 window),而只是提 炼出一个统一的“处理”(process)操作——它是所有转换算子的一个概括性的表达,可以自 定义处理逻辑,所以这一层接口就被叫作“处理函数”(process function)。 在处理函数中,我们直面的就是数据流中最基本的元素:数据事件(event)、状态(state)以及时间(time)。这就相当于对流有了完全的控制权。一、基本处理函数(ProcessF...

2022-04-04 20:34:08 1539

原创 【Flink】Flink中的窗口API、窗口函数以及迟到数据处理问题

在流处理中,我们往往需要面对的是连续不断、无休无止的无界流,不可能等到所有所有数据都到齐了才开始处理。更加高效的做法是,把无界流进行切分,每一段数据分别进行聚合,结果只输出一次。这就相当于将无界流的聚合转化为了有界数据集的聚合,这就是所谓的“窗口”(Window)聚合操作。窗口聚合其实是对实时性和处理效率的一个权衡。

2022-04-03 22:49:21 1676

原创 【Flink】Flink 中的时间语义和水位线

水位线是一种特殊的事件,由程序员通过编程插入的数据流里面,然后跟随数据流向下游流动。

2022-04-03 08:18:05 1388

原创 【Flink】DataStream API—执行环境、源算子、转换算子、输出算子

DataStream API—执行环境、源算子、转换算子、输出算子包括匿名函数、自定义函数、富函数。

2022-04-02 14:11:28 686

原创 【Flink】Flink的系统架构、作业提交以及一些重要概念

一、系统架构1、整体构成客户端并不是处理系统的一部分,它只负责作业的提交。具体来说,就是调用程序的 main 方法,将代码转换成“数据流图”(Dataflow Graph),并最终生成作业图(JobGraph),一并发送给 JobManager。JobManager 和 TaskManagers 可以以不同的方式启动: (1)作为独立(Standalone)集群的进程,直接在机器上启动 (2)在容器中启动 (3)由资源管理平台调度启动,比如 YARN、K8S 2、JobM

2022-04-01 21:21:21 1555

原创 【Flink】Flink的部署模式

一、本地启动 & 集群启动1、本地启动:最简单的启动方式,其实是不搭建集群,直接本地启动。本地部署非常简单,直接解压安装包就可以使用,不用进行任何配置;一般用来做一些简单的测试。 启动成功后,访问 http://hadoop102:8081,可以对 flink 集群和任务进行监控管理2、集群启动:如果我们想要扩展成集群,其实启动命令是不变的,主要是需要指定节点之间的主从关系。Flink 是典型的 Master-Slave 架构的分布式数据处理框架,其中 Master 角色对应着JobMa

2022-04-01 20:25:39 905

原创 【Flink】Flink的wordCount——批处理和流处理

一、批处理public class wordCount { public static void main(String[] args) throws Exception { // 创建执行环境 ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); // 从文件中读取数据 String inputPath = "data//hello.

2022-04-01 19:31:16 492

原创 【Flink】Flink概念、应用场景、特点以及与Spark的对比

一、概述1、什么是Flink?Flink 是一个流式大数据处理引擎,执行的是数据流上的有状态计算。2、流处理和批处理对于具体应用来说,有些场景数据是一个一个来的,是一组有序的数据序列,我们把它叫作“数据流”;而有些场景的数据,本身就是一批同时到来,是一个有限的数据集,这就是批量数据(有时也直接叫数据集)。 二、Flink的应用场景1. 电商和市场营销 举例:实时数据报表、广告投放、实时推荐2. 物联网(IOT) 举例:传感器实时数据...

2022-04-01 19:10:49 1186

原创 【Flink】FlinkSQL代码格式问题

发现问题执行以下SQL查询:报错,第54行出现问题:分析问题1、一开始以为是字母没有大写的问题,于是将所有关键字都改为大写,但仍然报同样的错误。2、检查SQL语句的语法,也没有问题,标点符号也都没有问题3、将分段多句写为一句,终于发现问题了,原因是“from table”前面没有空格,这是由于换行导致的疏忽。总结1、避免SQL语句冗长,通常会采用分段编写的格式,但要注意标点符号和空格。2、关键字的大小写并不会导致错误,也不会影响结果,例如group by和GR

2022-03-27 11:26:03 1103

原创 【Flink】Flink中的泛型擦除问题

The return type of function 'main(Transformation_returnType.java:23)' could not be determined automatically, due to type erasure. You can give type information hints by using the returns(...) method on the result of the transformation call, or by letting y

2022-03-22 15:35:55 2754

原创 字节给我发感谢信,我也感谢字节(内附一面面经)

前几天面的一面,投的是大数据开发岗位,没有笔试面完感觉自己有点凉,毕竟SQL没写出来,有个数据倾斜的问题也没答出来但最后面试官问了一句最早几时可以上岗,让我感觉尚有希望,于是等了三天,就给我发信这个结局自己其实也是料到了,但还是心存侥幸,最终的结果告诉了自己,做人做事还是要脚踏实地。感觉字节这次提供的面试,让我进一步认识了自己。最后也提供一下一面的内容,供大家参考,祝大家面试顺利,找到暑假实习!...

2022-03-12 11:17:04 2601

原创 【Kafka】Error while executing topic command : replication factor: 1 larger than available brokers: 0

一、发现问题想在Kafka里创建一个主题,却发现了错误:二、解决问题1、查看进程,看Kafka集群是否正常。结果发现有一个节点的Kafka没启动,停止重启。重启后还要再查看进程,因为可能再次出现同样的问题,直到三个节点的Kafka都正常启动为止。2、如果不是进程的问题,就要看看是不是指令写法的问题。如果Kafka的配置是如下,则要在命令行后加/Kafka:如果Kafka的配置中集群地址后面没有加“/kafka”,那么命令行后也不用加/kafka:.

2022-02-16 10:33:06 1699 1

原创 【Spark】RDD的序列化问题

发现问题object serialDemo { def main(args: Array[String]): Unit = { val sparConf = new SparkConf().setMaster("local").setAppName("WordCount") val sc = new SparkContext(sparConf) val rdd: RDD[String] = sc.makeRDD(Array("hello world", "hello sp

2022-01-23 12:35:13 1793 1

原创 【Spark】日志信息打印——问题解决

运行WordCount案例时发现控制台打印了一堆信息,但运行结果能正常显示。那么如何去掉这些控制信息,只看运行结果呢?

2022-01-20 10:20:23 1196 1

原创 【Scala】match——模式匹配总结

Scala 中的模式匹配类似于 Java 中的 switch 语法模式匹配语法中,采用 match 关键字声明,每个分支采用 case 关键字进行声明,当需要匹配时,会从第一个 case 分支开始,如果匹配成功,那么执行对应的逻辑代码,如果匹配不成功,继续执行下一个分支进行判断。如果所有 case 都不匹配,那么会执行 case _分支, 类似于 Java 中 default 语句。

2022-01-19 20:35:21 647

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除