自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

gongpulin的博客

09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 Flink DataStream API编程指南

Flink DataStream API主要分为三个部分，分别为Source、Transformation以及Sink，其中Source是数据源，Flink内置了很多数据源，比如最常用的Kafka。Transformation是具体的转换操作，主要是用户定义的处理数据的逻辑，比如Map，FlatMap等。Sink(数据汇)是数据的输出，可以把处理之后的数据输出到存储设备上，Flink内置了许多的Sink，比如Kafka，HDFS等。另外除了Flink内置的Source和Sink外，用户可以实现自定义的Sou

2020-05-31 22:41:30 316

原创 github访问加速

对于国内的用户，下载 github 上的代码可能比较慢，可以在/etc/hosts 中增加如下配置，可以显著提升 github 的下载速度：151.101.72.133 assets-cdn.github.com151.101.73.194 github.global.ssl.fastly.net192.30.253.113 github.com11.238.159.92 git.node5.mirror.et2sqa如果使用 Windows 系统，则是配置在“C:\Windows\Sys

2020-05-23 12:46:33 3787

转载 Apache Flink 进阶（一）：Runtime 核心机制剖析

1. 综述本文主要介绍 Flink Runtime 的作业执行的核心机制。首先介绍 Flink Runtime 的整体架构以及 Job 的基本执行流程，然后介绍在这个过程，Flink 是怎么进行资源管理、作业调度以及错误恢复的。最后，本文还将简要介绍 Flink Runtime 层当前正在进行的一些工作。2. Flink Runtime 整体架构Flink 的整体架构如图 1 所示。Flink 是可以运行在多种不同的环境中的，例如，它可以通过单进程多线程的方式直接运行，从而提供调试的能力。它也可以运

2020-05-21 23:36:30 230

原创 Apache Flink 的定义、架构及原理

作者：陈守元 & 戴资力整理：闵阁陈守元（巴真）阿里巴巴高级产品专家嘉宾简介：阿里巴巴实时计算团队产品负责人，2010年毕业即加入阿里集团参与淘宝数据平台建设，近10年的大数据从业经验，开源项目Alibaba DataX发起人，当前负责阿里实时计算产品Flink的规划与设计，致力于推动Flink成为下一代大数据处理标准。戴资力（Gordon Tai）Apache Flink PMC ，Ververica Software Engineer嘉宾简介：戴资力（Go..

2020-05-20 23:13:40 665

转载 RDD、DataFrame、DateSet基本操作

一，RDD，DataFrame和DataSetDataFrame参照了Pandas的思想，在RDD基础上增加了schma，能够获取列名信息。DataSet在DataFrame基础上进一步增加了数据类型信息，可以在编译时发现类型错误。DataFrame可以看成DataSet[Row]，两者的API接口完全相同。DataFrame和DataSet都支持SQL交互式查询，可以和 Hive无缝衔接。DataSet只有在Scala语言和Java语言的Spark接口中才支持，在Python和R语言接口只支

2020-05-14 23:24:34 458

转载 SparkSQL的自适应执行---Adaptive Execution

1 背景本文介绍的 Adaptive Execution 将可以根据执行过程中的中间数据优化后续执行，从而提高整体执行效率。核心在于两点执行计划可动态调整调整的依据是中间结果的精确统计信息 2 动态设置 Shuffle Partition2.1 Spark Shuffle 原理如上图所示，该 Shuffle 总共有 2 个 Mapper 与 5 个 Reducer。每个 Mapper 会按相同的规则（由 Partitioner 定义）将自己的数据分为五份。..

2020-05-11 21:50:25 403

转载 Spark性能调优-总结分享

1、Spark调优背景目前Zeppelin已经上线一段时间，Spark作为底层SQL执行引擎，需要进行整体性能调优，来提高SQL查询效率。本文主要给出调优的结论，因为涉及参数很多，故没有很细粒度调优，但整体调优方向是可以得出的。环境：服务器600+，spark 2.0.2，Hadoop2.6.02、调优结果调优随机选取线上9条SQL，表横轴是调优测试项目，测试在集群空闲情况下进行，后一个的测试都是叠加前面测试参数。从数据可参数经过调优，理想环境下性能可提高50%到300%3、下面为调.

2020-05-11 21:28:51 279

转载 Redis全攻略

0x00.前言Redis是跨语言的共同技术点，无论是Java还是C++都会问到，所以是个高频面试点。笔者是2017年才开始接触Redis的，期间自己搭过单机版和集群版，不过现在大一些的公司都完全是运维来实现的，我们使用者只需要在web页面进行相关申请即可，很多细节都被屏蔽了，这样当然很方便啦，不过我们还是要深入理解一下的。在工作几年中笔者接触过Redis、类Redis的SSDB和Pik...

2020-05-05 21:39:26 1453

转载 HBase2.0新特性

升级背景个推作为专业的数据智能服务商，在业务开展过程中存在海量的数据存储与查询的需求，为此个推选用了高可靠、高性能、面向列、可伸缩的分布式数据存储系统——HBase。然而，运行HBase老集群（使用HBase1.0版本）多年后，遇到了两大问题：各节点基础环境不一致；该集群的服务器运行多年已过保。而且随着个推业务量增长，性能方面也开始遇到瓶颈。经过综合评估，个推决定将老集群升级并...

2020-05-05 21:29:46 1034

numpy.exe、scipy.exe

windows下numpy和scipy最简单的安装方法

2016-01-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

gongpulin CSDN认证博客专家 CSDN认证企业博客

码龄10年

IP 属地：浙江省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

168: 原创

3万+: 周排名

202万+: 总排名

93万+: 访问

: 等级

9961: 积分

180: 粉丝

144: 获赞

62: 评论

685: 收藏

私信

关注

热门文章

分类专栏

最新评论

Flink重点学习笔记
CSDN-Ada助手: Flink 支持哪些类型的窗口函数？
influxdb源码阅读之tsdb核心数据结构梳理
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加条理清晰的目录；(3)使用更多的站内链接。
redis面试题
weixin_45525834: 引用「数据持久化」 Good
redis面试题
何言他日今时: 这种自问自答的模式，一方扮演面试官，一方扮演求职者，很是诙谐有趣。我想起了中学时学的《赤壁赋》，这种手法，想想很是经典。
golang sort —— 排序算法
Deng_Xian_Shemg: 怼人家干嘛

最新文章

提示

确定要删除当前文章？

取消删除