- 博客(171)
- 资源 (1)
- 收藏
- 关注
原创 那些被问懵的Flink面试题
前言 有没有去面试的时候被问到Flink的面试题你答不上来,为什么那?,菜吗? 不是。原因是你接触的面试题太少了,那我今天就根据不同的群体来给大家你分享。1 Flink基础(适合初入职场)简单介绍一下 FlinkFlink相比传统的Spark Streaming区别?Flink的组件栈有哪些?Flink 的运行必须依赖 Hadoop组件吗?你们的Flink集群规模多大?Flink的基础编程模型
2021-01-01 22:28:55
2833
23
原创 FlinkSQL内置了这么多函数你都使用过吗?
前言 Flink Table 和 SQL 内置了很多 SQL 中支持的函数;如果有无法满足的需要,则可以实现用户自定义的函数(UDF)来解决。一、系统内置函数 Flink Table API 和 SQL 为用户提供了一组用于数据转换的内置函数。SQL 中支持的很多函数,Table API 和 SQL 都已经做了实
2020-12-30 23:13:43
3514
原创 一篇文章带你深入理解FlinkSQL中的窗口
前言 时间语义,要配合窗口操作才能发挥作用。最主要的用途,当然就是开窗口、根据时间段做计算了。下面我们就来看看 Table API 和 SQL 中,怎么利用时间字段做窗口操作。在 Table API 和 SQL 中,主要有两种窗口:Group Windows 和 Over Windows(时间语义的文章推荐)...
2020-12-28 22:54:35
4726
原创 kettle生成节假日数据原来还可以这样操作?
前言 最近有好多小伙伴私信我,遇到一个问题在做数仓项目中遇到了瓶颈有的需求需要根据节假日去统计信息。但是由于节假日每年都不一样目前提供的方法没法动态的去获取关于节假日的信息。所以自己去编写一个实现类就完成这个操作。一、需求描述 在Hive中生成一个表用来保存关于日期的工具。目前大公司为了提高效率。创建一个日期表
2020-12-22 21:21:23
3904
29
原创 一篇文章让深入理解Flink SQL 时间特性
前言 基于时间的操作(比如 Table API 和 SQL 中窗口操作),需要定义相关的时间语义和时间数据来源的信息。所以,Table 可以提供一个逻辑上的时间字段,用于在表处理程序中,指示时间和访问相应的时间戳。 时间属性,可以是每个表 schema 的一部分。一旦定义了时间属性,它就可以作为一个字段引用,并且可
2020-12-21 23:23:03
4463
25
原创 玩爬虫不就是为了多爬取几个小姐姐吗,几十行代码快速获取小姐姐视频?
又到了愉快的周末了,今天她不在家我们就来玩点骚操作,我们来玩点男人最喜欢干的事情,来爬取小姐姐视频,喜欢的朋友可以来个一键三连。一、分析页面这次我么爬取的是一个六间房的一个网页 官方地址: https://v.6.cn/minivideo/实现思路:通过抓包来找到我们想要的url路径拿到url发送请求返回我们数据解析数据将我们不需要的数据剔除掉将数据保存我们本地到这里我们就已近获取到ur
2020-12-20 21:50:00
4095
26
原创 一篇文章带你深入了解Flink SQL流处理中的特殊概念
Table API 和 SQL,本质上还是基于关系型表的操作方式;而关系型表、关系代数,以及SQL 本身,一般是有界的,更适合批处理的场景。这就导致在进行流处理的过程中,理解会稍微复杂一些,需要引入一些特殊概念。接下来就分别讲一下这几种概念。一、流处理和关系代数(表,及 SQL)的区别 可以看到,其实关系代数(
2020-12-19 21:25:44
3548
27
原创 快速入门Flink SQL——Sink(Kafka、文本、MySQL、DataStream)
前言 表的输出,是通过将数据写入 TableSink 来实现的。TableSink 是一个通用接口,可以支持不同的文件格式、存储数据库和消息队列。 具体实现,输出表最直接的方法,就是通过 Table.insertInto() 方法将一个 Table 写入注册过的 TableSink 中。一、输入到文件...
2020-12-18 22:03:46
6142
24
原创 快速入门Flink SQL——Table与DataStream互转
前言 上述讲到,成功将一个文件里的内容使用SQL进行了一解析(快速入门Flink SQL —— 介绍及入门)本篇文章主要会跟大家分享如何连接kafka,MySQL,作为输入流和数出的操作。一、将kafka作为输入流 kafka 的连接器 flink-kafka-connector 中,1.10 版本的已经提供了
2020-12-17 23:12:01
7819
14
原创 快速入门Flink SQL —— 介绍及入门
前言 Flink 本身是批流统一的处理框架,所以 Table API 和 SQL,就是批流统一的上层处理 API。目前功能尚未完善,处于活跃的开发阶段。 Table API 是一套内嵌在 Java 和 Scala 语言中的查询 API,它允许我们以非常直观的方式,组合来自一些关系运算符的查询(比如 select、f
2020-12-16 22:12:30
20096
30
原创 2020年最新Spark企业级面试题【下】
前言 上篇文章给大家分享了前10个spark的企业面试题2020年最新Spark企业级面试题【上】,今天后续来了,来分享剩下的那个几个面试题。也祝大家找到自己喜欢的工作,一起加油,编写不易 请给老哥一个一键三连吧。一、手写Spark-WordCount在这里就有好多小伙吧说了,手写wordCount不简单吗?一点逻辑都没有,虽然你在idea中写的非常熟练,但是真到了面试的时候就有好多小伙伴写不出来了,往往越
2020-12-13 19:44:39
3967
1
原创 2020年最新Spark企业级面试题【上】
前言 现在距离2021年还有不到一个月的时间了,是不是有的小伙明年不知该怎么复习spark,以及不知道该备战企业中会问到那些问题。好今天他来了总结了20个企业中经常被问到的面题以及会附带一些笔试题哦,编写不易建议收藏。一、 Spark 有几种部署方式?spark 中的部署模式分为三种 Standalone, Apache Mesos, Hadoop YARN,那他们分别有啥作用那?Standalon
2020-12-12 20:19:28
4124
27
转载 如何在面试中介绍自己的项目经验(建议收藏)
你还不知道怎么跟面试官聊你的技术吗,原来你的面试过程中出现了这么多的问题你自己还不知道?还不快看看这篇文章? 别忘了一键三连
2020-12-11 16:46:55
10416
29
原创 做为程序员必备的十软件(让你的工作效率瞬间爆棚)
hello我们有见面了,我今天给大家分享一些我自己都在使用的软件,使用这些软件无论是工作还是学习,我感觉我的工作效率提升了不知一点点,好了废话就不多说了,喜欢的朋友加个一键三连。一、IDM 下载工具 IDM作为一款超级强大的下载工具,是很多人的首选,尤其是在当pandownload被封之后,找不到合适的替代下载
2020-12-10 22:00:32
12621
32
原创 快速入门Kubernetes(K8S)——资源控制器
一、什么是控制器Kubernetes 中内建了很多 controller(控制器),这些相当于一个状态机,用来控制 Pod 的具体状态和行为二、控制器类型ReplicationController 和 ReplicaSetDeploymentDaemonSetStateFulSetJob/CronJobHorizontal Pod Autoscaling2.1 ReplicationController 和 ReplicaSetReplicationController(RC)用
2020-12-09 22:46:45
3533
原创 快速入门Kubernetes(K8S)——资源清单
上篇文章给搭建搭建了企业私有服务,本篇文章给大家介绍下k8s中的 资源清单 本篇文章大部分全都是理论。耐心看完将会刷新你对k8s的认知。一、 k8s中的资源1.1 什么是资源?K8s中所有的内容都抽象为资源,资源实例化之后,叫做对象1.2 K8S中存在哪些资源工作负载型资源(workload): Pod、ReplicaSet、Deployment、StatefulSet、DaemonSet
2020-12-06 21:14:51
4780
原创 快速入门Kubernetes(K8S)——部署Harbor(企业级Docker的私有仓库)
上篇文章给大家介绍了k8s以及集群的安装(快速入门Kubernetes(K8S)——介绍及安装),本篇文章主要讲解Harbor以及 部署私有的Harbor仓库。一、 Harbor是什么 第一次听到这个名字应该是2016年初的时候,那是在容器技术已经兴起的,各个容器管理平台正处于群雄逐鹿的时候,mesos、ku
2020-12-05 21:10:45
6510
36
原创 快速入门Kubernetes(K8S)——介绍及安装
首先我在这里说明一下我为什么学习K8S,现在的大型联网公司基本都镜像的方式进行一个管理(docker教程),但是当镜多的时候就不方便管理和维护所以就产生了Kubernetes这个组件。一、什么是Kubernetes Kubernetes是Google开源的一个容器编排引擎,它支持自动化部署、大规模可伸缩、应用容
2020-12-04 16:40:37
5625
50
原创 Hive的高频面试题,你都会了吗?
上篇文章给家讲解了Hadoop的面试题,Hive是踩在巨人的肩膀上的一个数据仓库组件,看看企业问那些问题吧。一、什么是Hive? 为什么要有hive 很多时候面试以上来就问什么是Hive,有了MapReduc为什么还要有hive呀。很多小伙伴回答的都不是很好,好,那大数据老哥来个大家讲解下。Hive是基
2020-11-30 23:39:35
4409
36
原创 快速入门Docker(5)——DockerFile|Docker网络
一、Docker File1.1 初始DockerFileDoceker 就是用来构建 Dcoekr镜像的构建文件!通过这个脚本可以生成镜像,镜像是一层一层的,脚本一个个的命令,每个命令都是一层!#创建一个DocekrFile文件,名字可以随机DockerFile#构建脚本FROM centos VOLUME ["volume01","volume02"] CMD echo "------------END-----------" CMD /bin/bash #测试命令 [root
2020-11-29 19:13:07
4288
原创 快速入门Docker(4)——commit镜像|容器数据卷
上篇文章给家讲解了实战练习附带了给大家又聊了下境像讲解的原理,本篇文章主要给家聊一聊关于commit的和容器数据卷相关内容附带一些练习,编写不易:对你有帮助【一键三连,收藏】。看完掌握以下内容:commit 镜像 原理了解什么是容器数据卷如何使用数据卷附带 MySQL 安装实战了解具名和匿名挂载一、commit 镜像docker commit 提交容器成为一个新的副本# 命令和git
2020-11-28 17:24:32
3709
29
原创 面试了N多家总结的Hadoop15个高频面试
一、 你说你深刻理解MR的工作流程,你给我讲一下吧1. 在客户端执行submit()方法之前,会先去获取一下待读取文件的信息 2. 将job提交给yarn,这时候会带着三个信息过去(job.split(文件的切片信息),jar.job.xml) 3. yarn会根据文件的切片信息去计算将要启动的maptask的数量,然后去启动maptask 4. maptask会调用InPutFormat()方法区HDFS上面读取文件,InPutFormat()方法会再去 调用 RecordRead()
2020-11-26 23:28:40
6542
25
原创 快速入门Docker(3)——安装实战练习|Docker境像讲解(还不收藏?)
1.4 安装实战练习1.4.1 使用Docker 安装nginx操作步骤首先搜索镜像 可以通过命令或者通过官网进行搜索通过pull方式进行下载通过后台的方式进行运行# 查询镜像[root@192 ~]# docker search nginx #拉去镜像[root@192 ~]# docker pull nginx#后台启动镜像[root@192 ~]# docker run -d --name nginx01 -p 2020:80 nginx2277fe2b798a4f
2020-11-25 21:40:54
3997
19
原创 快速入门Docker(2)——常用命令(建议收藏)
一、Docker常用命令1.1 帮助命令docker version #显示docker版本信息docker info #显示docker的系统信息,包括镜像和容器数量docker 命令 --help #帮助文档 官方帮助文档 1.2 镜像命令docker imager 查看所有本地的主机上的镜像[root@192 ~]# docker imagesREPOSITORY TAG IMAG
2020-11-24 21:49:27
7511
35
原创 快速入门Docker(1)——介绍及安装
最近在项目需要依赖于Docker,但是博主之前没有接触出过这个,所以小白方式来给大家分享,如果有哪些不足的地方可以在留言区提出来。看完本篇文章可以掌握以下内容:了解Docker为什么会出现了解Docker历史了解Docer能干嘛完成Docer安装一、Docker为什么会出现 一款产品从开发到上线,从
2020-11-17 22:17:36
4326
16
原创 DATAX快速上手非常详细
前言 博主在工作的过程中有一天公司决定将数据迁移的新的项目上去,当我发现数据库中的表大于有4000多张表的时我顿时懵了下,这数据迁移人力物力消耗的也太大了吧(看DataX的设计)。所以我们可以借助阿里云开源的DataX来解决这个问题。看完这篇掌握以下内容:什么是DataXDataX的设计Datax框架设计、运行原理快速入门一、概论1.1 什么是DataX
2020-11-14 16:33:35
18056
26
原创 看完这一篇文章入门Flume
在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示:——Flink中的流式处理Transformation操作
上篇博客给大家讲解了DataSource与DataSink本篇文章准备给大家讲解下Stream中的最长用的几种Transformation操作(收藏,收藏,收藏重要事情说三遍)。一、KeyBy逻辑上将一个流分成不相交的分区,每个分区包含相同键的元素。在内部,这是通过散 列分区来实现的import org.apache.flink.streaming.api.scala._/** * @author.
2020-09-23 22:20:33
6172
52
原创 快速入门Flink(7)——Flink中的流式处理DataSource与DataSinke
前几篇文章给大家讲解了个关于Flink批处理相关的技术点,今天给大家将讲解下关于流式处理的DataSource与DataSink ☛(Flink专辑)一、入门案例使用Flink的流式处理来计算wordCount实现步骤:获取Flink批处理运行环境构建一个socket源使用Flink操作进行单词统计打印说明:如果 linux 上没有安装 nc 服务 ,使用 yum 安装yum instal.
2020-09-23 00:23:37
5497
56
原创 快速入门Flink(6)——Flink中广播变量、分布式缓存、累加器(超详细,快收藏)
上篇文章给大家讲解了Flink中常用的到算子 ☛(Flink中的17种TransFormAction算子)那您写的代码如何进行优化那,提高效率?那接下来我们使用分布式缓存、广播变量来提高代码的效率。一、Flink 的广播变量(重点 )介绍Flink广播变量及试用场景 Flink 支持广播变量,就是将数据广播到具.
2020-09-20 14:53:07
9050
46
原创 LeetCode快速入门① ——数组系列上(面试常问,建议收藏)
首先我在这里先介绍下算法对于我们个人的意义。在实际项目中,算法的使用场景有很多,如“Java8中Hashmap使用红黑树来实现”、“Redis底层使用LRU来进做淘汰策略”、“大数据领域很多问题都基于TopK”、“JS原型链里使了类似链表的成环检测”、“特别复杂的业务逻辑经常涉及到DAG”、“MySql为什么索引要用B+树”、“Oracle里的开窗函数如何实现” 等等等等。总之,正是因为算法题目中只保留了必备的.
2020-09-17 23:03:10
8353
62
原创 MySQl5.7 Linux安装教程(全网最全,建议收藏)
为什么一定要手动安装MySQL那,使用系统的yum -y install mysql-server 他不香吗,但是默认安装的版本是(mysql-5.1.73-8.e16_8.x86_64)由于版本太低了好多等西都不能用,所以我今天给大家分享一下手动安装MySQL5.7.17(建议收藏)一、准备工作下载安装包:方式一、点击去官网去下载方式二、使用Linux下载wget进行下载我这里提供的是MySQL.
2020-08-26 19:31:29
6314
41
原创 快速入门Flink(3)——Flink运行架构(面试必问,建议收藏)
上一篇教大家如何搭建一个Flink集群,本篇博客给大家讲解一下Flink运行时架构(面试必问)一、Flink运行时组件1.1 作业管理器(JobManager)控制一个应用程序执行的主进程,也就是说,每个应用程序都会被一个不同的Jobmanager所控制执行Jobmanager会先接收到要执行的应用程序,这个应用程序会包括:作业图( Job Graph)、逻辑数据流图( ogical dataflo.
2020-08-23 00:07:00
10407
72
原创 快速入门Flink(2)——Flink集群环境搭建(3台节点 建议收藏)
上一篇博客给大家介绍了一下Flink,今天大家带来Flink集群环境搭建。(建议收藏)一、Flink支持多种方式搭建(local,standalone,yarn)local( 本地) ——单机模式, 一般不使用standalone ——独立模式, Flink 自带集群,开发测试环境使用yarn——计算资源统一由 Hadoop YARN 管理,生产环境测试1.1准备工作JDK1.8以上(配置JA.
2020-08-16 19:40:33
14663
51
原创 快速入门Flink(1)——Flink介绍与架构体系
本篇博客正式讲解Flink,为啥要学习Flink(ÒωÓױ)!现在好多到大公司使用来Flink做实时处理与批处理。一、Flink介绍1.1 Flink 的引入 这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm, 以及后来的 Spark ,他们都有着各自专注的应用场景。Spar
2020-08-04 20:01:28
8077
39
原创 快速入门Shell脚本(6)——学会这些大厂面试题你还害怕面试官问你?(建议收藏)
上一篇博客给大家讲了一下shell脚本中常用的工具(查看工具),本篇博客,给大家讲一下大厂面试的shell脚本的题目(重点)。(喜欢shell脚本的可以关注专栏)1.京东问题1.1 :使用Linux命令查询sed.txt中空行所在的行号[root@node01 shell]# awk '/^$/{print NR}' sed.txt 8问题1.2: 准备数据创建文件name.txt内容如下:.
2020-07-30 18:43:35
10202
28
原创 快速入门Shell脚本(5)——Shell的这些工具你都知道了吗?
[root@node01 shell]# vim cut.txthello wordhello Hadoophello sparkhello flinkhello flumehello kafkahello java
2020-07-29 19:14:54
11764
70
原创 快速入门Shell脚本(4)——常用的函数操作
前几篇已经给大家介绍了shell脚本,前几篇都算是入门,今天给大家带来一些比较复杂的操作(函数),本篇博客,我们来聊一聊shell脚本中的函数操作。1.函数的优点函数的优点:代码模块化调用方便节省内存代码量小拍错简单2.rand 在控制输入数据并读取控制台的数据输出2.1 基本语法read(选项)(参数)选项:-p:指定读取值时的提示符;-t:指定读取值时等待时间(秒)。参数.
2020-07-28 18:51:32
10646
24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅