自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (1)
  • 收藏
  • 关注

转载 Flink DataStream API编程指南

Flink DataStream API主要分为三个部分,分别为Source、Transformation以及Sink,其中Source是数据源,Flink内置了很多数据源,比如最常用的Kafka。Transformation是具体的转换操作,主要是用户定义的处理数据的逻辑,比如Map,FlatMap等。Sink(数据汇)是数据的输出,可以把处理之后的数据输出到存储设备上,Flink内置了许多的Sink,比如Kafka,HDFS等。另外除了Flink内置的Source和Sink外,用户可以实现自定义的Sou

2020-05-31 22:41:30 316

原创 github访问加速

对于国内的用户,下载 github 上的代码可能比较慢,可以在/etc/hosts 中增加如下配置, 可以显著提升 github 的下载速度:151.101.72.133 assets-cdn.github.com151.101.73.194 github.global.ssl.fastly.net192.30.253.113 github.com11.238.159.92 git.node5.mirror.et2sqa如果使用 Windows 系统,则是配置在“C:\Windows\Sys

2020-05-23 12:46:33 3787

转载 Apache Flink 进阶(一):Runtime 核心机制剖析

1. 综述本文主要介绍 Flink Runtime 的作业执行的核心机制。首先介绍 Flink Runtime 的整体架构以及 Job 的基本执行流程,然后介绍在这个过程,Flink 是怎么进行资源管理、作业调度以及错误恢复的。最后,本文还将简要介绍 Flink Runtime 层当前正在进行的一些工作。2. Flink Runtime 整体架构Flink 的整体架构如图 1 所示。Flink 是可以运行在多种不同的环境中的,例如,它可以通过单进程多线程的方式直接运行,从而提供调试的能力。它也可以运

2020-05-21 23:36:30 230

原创 Apache Flink 的定义、架构及原理

作者:陈守元 & 戴资力整理:闵阁陈守元(巴真)阿里巴巴高级产品专家嘉宾简介:阿里巴巴实时计算团队产品负责人,2010年毕业即加入阿里集团参与淘宝数据平台建设,近10年的大数据从业经验,开源项目Alibaba DataX发起人,当前负责阿里实时计算产品Flink的规划与设计,致力于推动Flink成为下一代大数据处理标准。戴资力(Gordon Tai)Apache Flink PMC ,Ververica Software Engineer嘉宾简介:戴资力(Go..

2020-05-20 23:13:40 665

转载 RDD、DataFrame、DateSet基本操作

​一,RDD,DataFrame和DataSetDataFrame参照了Pandas的思想,在RDD基础上增加了schma,能够获取列名信息。DataSet在DataFrame基础上进一步增加了数据类型信息,可以在编译时发现类型错误。DataFrame可以看成DataSet[Row],两者的API接口完全相同。DataFrame和DataSet都支持SQL交互式查询,可以和 Hive无缝衔接。DataSet只有在Scala语言和Java语言的Spark接口中才支持,在Python和R语言接口只支

2020-05-14 23:24:34 458

转载 SparkSQL的自适应执行---Adaptive Execution

1 背景本文介绍的 Adaptive Execution 将可以根据执行过程中的中间数据优化后续执行,从而提高整体执行效率。核心在于两点 执行计划可动态调整 调整的依据是中间结果的精确统计信息 2 动态设置 Shuffle Partition2.1 Spark Shuffle 原理如上图所示,该 Shuffle 总共有 2 个 Mapper 与 5 个 Reducer。每个 Mapper 会按相同的规则(由 Partitioner 定义)将自己的数据分为五份。..

2020-05-11 21:50:25 403

转载 Spark性能调优-总结分享

1、Spark调优背景目前Zeppelin已经上线一段时间,Spark作为底层SQL执行引擎,需要进行整体性能调优,来提高SQL查询效率。本文主要给出调优的结论,因为涉及参数很多,故没有很细粒度调优,但整体调优方向是可以得出的。环境:服务器600+,spark 2.0.2,Hadoop2.6.02、调优结果调优随机选取线上9条SQL,表横轴是调优测试项目,测试在集群空闲情况下进行,后一个的测试都是叠加前面测试参数。从数据可参数经过调优,理想环境下性能可提高50%到300%3、 下面为调.

2020-05-11 21:28:51 279

转载 Redis全攻略

0x00.前言Redis是跨语言的共同技术点,无论是Java还是C++都会问到,所以是个高频面试点。笔者是2017年才开始接触Redis的,期间自己搭过单机版和集群版,不过现在大一些的公司都完全是运维来实现的,我们使用者只需要在web页面进行相关申请即可,很多细节都被屏蔽了,这样当然很方便啦,不过我们还是要深入理解一下的。在工作几年中笔者接触过Redis、类Redis的SSDB和Pik...

2020-05-05 21:39:26 1453

转载 HBase2.0新特性

升级背景个推作为专业的数据智能服务商,在业务开展过程中存在海量的数据存储与查询的需求,为此个推选用了高可靠、高性能、面向列、可伸缩的分布式数据存储系统——HBase。然而,运行HBase老集群(使用HBase1.0版本)多年后,遇到了两大问题:各节点基础环境不一致;该集群的服务器运行多年已过保。而且随着个推业务量增长,性能方面也开始遇到瓶颈。经过综合评估,个推决定将老集群升级并...

2020-05-05 21:29:46 1034

numpy.exe、scipy.exe

windows下numpy和scipy最简单的安装方法

2016-01-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除