gongpulin
码龄10年
关注
提问 私信
  • 博客:950,427
    社区:114
    950,541
    总访问量
  • 168
    原创
  • 1,100,461
    排名
  • 180
    粉丝
  • 1
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2014-08-21
博客简介:

gongpulin的博客

查看详细资料
个人成就
  • 获得146次点赞
  • 内容获得62次评论
  • 获得689次收藏
  • 代码片获得249次分享
创作历程
  • 38篇
    2020年
  • 82篇
    2018年
  • 83篇
    2017年
  • 195篇
    2016年
  • 15篇
    2015年
成就勋章
TA的专栏
  • Leetcode
  • 算法与数据结构
    15篇
  • java
    42篇
  • java并发编程
    26篇
  • 深入jvm
    10篇
  • java集合
    4篇
  • 数据库
    27篇
  • spark
    39篇
  • Hadoop
    16篇
  • sparkstreaming
    11篇
  • 剑指offer
    18篇
  • redis
    11篇
  • Hbase
    9篇
  • 数据仓库
    4篇
  • SQL
    3篇
  • elasticsearch
    24篇
  • Flink
    15篇
  • 推荐系统
    1篇
  • java设计模式
    2篇
  • python
    13篇
  • web进阶
    2篇
  • scala
    20篇
  • golang
    32篇
  • influxdb
    17篇
  • Java Web
    14篇
  • Linux
    14篇
  • Kafka
    2篇
  • flume
    2篇
  • C/C++
    4篇
  • 分布式存储
  • ML
    3篇
  • PHP
    2篇
  • docker
    4篇
  • 计算机网络
    7篇
  • AnjularJS
    5篇
  • 自然语言处理
    1篇
  • 中文分词
    1篇
  • 系统架构
    4篇
  • 工具
    6篇
  • 程序人生
    2篇
兴趣领域 设置
  • 大数据
    hadoophivesparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flink窗口全解析:三种时间窗口、窗口处理函数使用及案例

我们经常需要在一个时间窗口维度上对数据进行聚合,窗口是流处理应用中经常需要解决的问题。Flink的窗口算子为我们提供了方便易用的API,我们可以将数据流切分成一个个窗口,对窗口内的数据进行处理。本文将介绍如何在Flink上进行窗口的计算。一个Flink窗口应用的大致骨架结构如下所示:// Keyed Windowstream .keyBy(...) <- 按照一个Key进行分组 .window(...) &
转载
发布博客 2020.09.23 ·
2911 阅读 ·
0 点赞 ·
0 评论 ·
9 收藏

加速国内 Github 访问,下载,的9种方案!

https://mp.weixin.qq.com/s/ptFBjWXj88fsI3Oh6PghRA1. GitHub 镜像访问这里提供两个最常用的镜像地址:https://github.com.cnpmjs.orghttps://hub.fastgit.org也就是说上面的镜像就是一个克隆版的Github,你可以访问上面的镜像网站,网站的内容跟Github是完整同步的镜像,然后在这个网站里面进行下载克隆等操作。2. GitHub文件加速利用 Cloudflare Worker
转载
发布博客 2020.09.18 ·
1841 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Flink重点学习笔记

Flink chain优点:为了更高效的分布式执行,Flink尽可能将operator的subtask链接(chain)在一起形成task。每个task在一个线程中执行。将operators链接成task是非常有效的优化:1、它能减少线程之间的切换。2、减少消息的序列化和反序列化。3、减少数据在缓冲区的交换。4、减少延迟的同时提高整体的吞吐量。subtask链接(chain)在一起的条件:1、用户没有禁用chain2、上下游的并行度一致3、下游节点的入度为1(也就是说下游节点没有来.
原创
发布博客 2020.08.31 ·
583 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

Flink调度数据 or 调度计算

https://mp.weixin.qq.com/s/mN4eQklYJAy4qXK3vhWK3Q对于任何一个分布式计算框架而言,如果数据和计算不在同一个节点,那么他们中间必须有一个需要移动到另一个所在的节点。如果把计算调度到数据所在节点,那就是调度计算,反之则是调度数据,SparkStreaming和Flink的实现是不同的。Spark的核心数据结构RDD包含几个关键信息,包括数据的分片(partitions)、依赖(dependencies)等,其中还有一个用于优化执行的信息就是preferred
原创
发布博客 2020.08.31 ·
429 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Flink CheckPoint奇技淫巧 | 原理和在生产中的应用

https://mp.weixin.qq.com/s/XfEteYxUvFM4GCuRKbNfJA
转载
发布博客 2020.08.31 ·
162 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink 如何保存状态数据

[部分译自]https://ci.apache.org/projects/flink/flink-docs-stable/ops/state/state_backends.html https://towardsdatascience.com/heres-how-flink-stores-your-state-7b37fbb60e1a[部分参考]https://www.infoq.cn/article/WkGozMQQExq6Xm5eJl1E https://ci.apache.org/pro
转载
发布博客 2020.08.31 ·
6750 阅读 ·
3 点赞 ·
1 评论 ·
20 收藏

flink1.10报错:akka.pattern.AskTimeoutException: Ask timed out on

flink1.10报错:akka.pattern.AskTimeoutException: Ask timed out on问题描述flink能正常启动,但是启动任务就失败,哪怕启动examples下面的示例程序也是报错报错内容 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20.
原创
发布博客 2020.08.08 ·
2019 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Flink DataStream API 中的多面手——Process Function详解

https://mp.weixin.qq.com/s/SOCAE-t25DPVlQMxuOT0jw引言在Flink的时间与watermarks详解这篇文章中,阐述了Flink的时间与水位线的相关内容。你可能不禁要发问,该如何访问时间戳和水位线呢?首先通过普通的DataStream API是无法访问的,需要借助Flink提供的一个底层的API——Process Function。Process Function不仅能够访问时间戳与水位线,而且还可以注册在将来的某个特定时间触发的计时器(ti..
转载
发布博客 2020.07.23 ·
932 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

漫谈HBase Filter

初衷对数据库来说,满足业务多样化的查询方式非常重要。如果说有人设计了一个KV数据库,只提供了Get/Put/Scan这三种接口,估计要被用户吐槽到死,毕竟现实的业务场景并不简单。就以订单系统来说,查询给定用户最近三个月的历史订单,这里面的过滤条件就至少有2个:1. 查指定用户的订单;2. 订单必须是最近是三个月的。此外,这里的过滤条件还必须是用AND来连接的。如果通过Scan先把整个订单表信息加载到客户端,再按照条件过滤,这会给数据库系统造成极大压力。因此,在服务端实现一个数据过滤器是必须的。除了上
转载
发布博客 2020.06.30 ·
467 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Flink数据类型和序列化

作者 | 马庆祥整理 | 毛鹤本文根据 Apache Flink 系列直播整理而成,由 Apache Flink Contributor、360 数据开发高级工程师马庆祥老师分享。文章主要从如何为 Flink 量身定制的序列化框架、Flink 序列化的最佳实践、Flink 通信层的序列化以及问答环节四部分分享。为 Flink 量身定制的序列化框架为什么定制?为什么要为 Flink 量身定制序列化框架?大家都知道现在大数据生态非常火,大多数技术组件都是运行在 JVM 上的,Flink 也
转载
发布博客 2020.06.29 ·
649 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Flink 作业执行深度解析

作者 | 岳猛整理 | 毛鹤本文根据 Apache Flink 系列直播课程整理而成,由 Apache Flink Contributor、网易云音乐实时计算平台研发工程师岳猛分享。主要分享内容为 Flink Job 执行作业的流程,文章将从两个方面进行分享:一是如何从 Program 到物理执行计划,二是生成物理执行计划后该如何调度和执行。Flink 四层转化流程Flink 有四层转换流程,第一层为 Program 到 StreamGraph;第二层为 StreamGraph 到 JobGr
转载
发布博客 2020.06.29 ·
356 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

如何正确使用 Flink Connector

董亭亭快手 实时计算引擎团队负责人董亭亭,快手大数据架构实时计算引擎团队负责人。目前负责Flink引擎在快手内的研发、应用以及周边子系统建设。2013年毕业于大连理工大学,曾就职于奇虎360、58集团。主要研究领域包括:分布式计算、调度系统、分布式存储等系统。本文主要分享 Flink connector 相关内容,分为以下三个部分的内容:第一部分会首先介绍一下 Flink Connector 有哪些。第二部分会重点介绍在生产环境中经常使用的 kafka connector 的基本的原理以及使用方
转载
发布博客 2020.06.28 ·
1080 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Flink Runtime 核心机制剖析

1. 综述本文主要介绍 Flink Runtime 的作业执行的核心机制。本文将首先介绍 Flink Runtime 的整体架构以及 Job 的基本执行流程,然后介绍在这个过程,Flink 是怎么进行资源管理、作业调度以及错误恢复的。最后,本文还将简要介绍 Flink Runtime 层当前正在进行的一些工作。2. Flink Runtime 整体架构Flink 的整体架构如图 1 所示。Flink 是可以运行在多种不同的环境中的,例如,它可以通过单进程多线程的方式直接运行,从而提供调试的能力。
转载
发布博客 2020.06.28 ·
207 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Apache Flink 零基础入门教程(六):状态管理及容错机制

作者:孙梦瑶整理:韩非本文主要分享内容如下:状态管理的基本概念;状态的类型与使用示例;容错机制与故障恢复;一.状态管理的基本概念1.什么是状态首先举一个无状态计算的例子:消费延迟计算。假设现在有一个消息队列,消息队列中有一个生产者持续往消费队列写入消息,多个消费者分别从消息队列中读取消息。从图上可以看出,生产者已经写入 16 条消息,Offset 停留在 15 ;有 3 个消费者,有的消费快,而有的消费慢。消费快的已经消费了 13 条数据,消费者慢的才消费了 7、8 条数据。如何
转载
发布博客 2020.06.27 ·
213 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink DataStream API编程指南

Flink DataStream API主要分为三个部分,分别为Source、Transformation以及Sink,其中Source是数据源,Flink内置了很多数据源,比如最常用的Kafka。Transformation是具体的转换操作,主要是用户定义的处理数据的逻辑,比如Map,FlatMap等。Sink(数据汇)是数据的输出,可以把处理之后的数据输出到存储设备上,Flink内置了许多的Sink,比如Kafka,HDFS等。另外除了Flink内置的Source和Sink外,用户可以实现自定义的Sou
转载
发布博客 2020.05.31 ·
367 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

github访问加速

对于国内的用户,下载 github 上的代码可能比较慢,可以在/etc/hosts 中增加如下配置, 可以显著提升 github 的下载速度:151.101.72.133 assets-cdn.github.com151.101.73.194 github.global.ssl.fastly.net192.30.253.113 github.com11.238.159.92 git.node5.mirror.et2sqa如果使用 Windows 系统,则是配置在“C:\Windows\Sys
原创
发布博客 2020.05.23 ·
3811 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Apache Flink 进阶(一):Runtime 核心机制剖析

1. 综述本文主要介绍 Flink Runtime 的作业执行的核心机制。首先介绍 Flink Runtime 的整体架构以及 Job 的基本执行流程,然后介绍在这个过程,Flink 是怎么进行资源管理、作业调度以及错误恢复的。最后,本文还将简要介绍 Flink Runtime 层当前正在进行的一些工作。2. Flink Runtime 整体架构Flink 的整体架构如图 1 所示。Flink 是可以运行在多种不同的环境中的,例如,它可以通过单进程多线程的方式直接运行,从而提供调试的能力。它也可以运
转载
发布博客 2020.05.21 ·
256 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Apache Flink 的定义、架构及原理

作者:陈守元 & 戴资力整理:闵阁陈守元(巴真)阿里巴巴高级产品专家嘉宾简介:阿里巴巴实时计算团队产品负责人,2010年毕业即加入阿里集团参与淘宝数据平台建设,近10年的大数据从业经验,开源项目Alibaba DataX发起人,当前负责阿里实时计算产品Flink的规划与设计,致力于推动Flink成为下一代大数据处理标准。戴资力(Gordon Tai)Apache Flink PMC ,Ververica Software Engineer嘉宾简介:戴资力(Go..
原创
发布博客 2020.05.20 ·
708 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

RDD、DataFrame、DateSet基本操作

​一,RDD,DataFrame和DataSetDataFrame参照了Pandas的思想,在RDD基础上增加了schma,能够获取列名信息。DataSet在DataFrame基础上进一步增加了数据类型信息,可以在编译时发现类型错误。DataFrame可以看成DataSet[Row],两者的API接口完全相同。DataFrame和DataSet都支持SQL交互式查询,可以和 Hive无缝衔接。DataSet只有在Scala语言和Java语言的Spark接口中才支持,在Python和R语言接口只支
转载
发布博客 2020.05.14 ·
500 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

SparkSQL的自适应执行---Adaptive Execution

1 背景本文介绍的 Adaptive Execution 将可以根据执行过程中的中间数据优化后续执行,从而提高整体执行效率。核心在于两点 执行计划可动态调整 调整的依据是中间结果的精确统计信息 2 动态设置 Shuffle Partition2.1 Spark Shuffle 原理如上图所示,该 Shuffle 总共有 2 个 Mapper 与 5 个 Reducer。每个 Mapper 会按相同的规则(由 Partitioner 定义)将自己的数据分为五份。..
转载
发布博客 2020.05.11 ·
432 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多