自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (10)
  • 收藏
  • 关注

翻译 [Spark基础]--解密Spark的分区

原文: https://www.edureka.co/blog/demystifying-partitioning-in-spark供稿人:Prithviraj BoseSpark的  弹性分布式数据集  (编程抽象)被懒惰地评估,Transform被存储为有向无环图(DAG)。因此,RDD上的每个操作都将使Spark重新计算DAG。这就是Spark如何实现弹性,因为如果任何工作节点失败,那么DA...

2017-12-20 14:11:25 951

翻译 [Spark基础]--聚合操作-reduceByKey、combineBykey、groupBy和AggregateByKey

1、Spark中的reduceByKey和CombineByKey有什么区别?groupByKey和CombineByKey / reduceByKey有很大的区别。请参阅以下文章以深入了解。 reduceByKey和CombineByKey之间的唯一区别是API,在内部它们的功能完全相同。reduceByKeyCombineByKeyreduceByKey在内部调用combineByKeyCom...

2017-12-20 13:34:20 4584

原创 [Java基础]--String hashCode实现

hashCode是java.lang.String类提供的方法(自从jdk1.0以来就有的),摘取关键的源码实现如下:1、声明变量 /** The value is used for character storage. */ private final char value[]; /** Cache the hash code for the string */ privat...

2017-12-20 11:50:23 1162

翻译 [Scala基础]--Null、null、 Nothing、 Nil、 None和Unit

原文:http://oldfashionedsoftware.com/2008/08/20/a-post-about-nothing/您听到的有关Scala语言的主要抱怨之一是与Java相比,它太复杂了。一般的开发者永远无法对类型系统,函数式编程语言等有足够的理解。这就是论点。为了支持这个位置,你会经常听到它指出Scala包含了一些虚无的概念(Null,null,Nil,Nothing,None和...

2017-12-19 18:58:44 9007

翻译 [Spark PairRDDFunctions]--combineByKey的解释

原文:https://www.edureka.co/blog/apache-spark-combinebykey-explained供稿人:Prithviraj Bose这是Spark中强大的API,它是  combineByKey。Scala API:  org.apache.spark.PairRDDFunctions.combineByKey。Python API:  pyspark.RDD...

2017-12-19 15:46:08 542

原创 [Spark基础]--repartition vs coalesce

请记住,对您的数据进行重新分区是一个相当昂贵的操作。还好,Spark还有一个名为coalesce()的repartition()的优化版本,它允许避免数据移动,但只有在减少RDD分区的数量的时候使用。一、repartition和coalesce区别1、coalesce操作只能减少分区,它是使用现有分区来减少shuffer的数据量,在一些具体的情况下,我发现repartition比coalesce更...

2017-12-19 14:58:28 10685

翻译 [Spark版本更新]--2.2.1发行说明

2017年12月01日,Spark官方进行了一次大版本升级。相关的发行说明如下:子任务[ SPARK-21083 ] - 分析空表后存储零大小和行数[ SPARK-21489 ] - 更新发布文档指出Python 2.6的支持已被删除。[ SPARK-21720 ] - 用很多条件筛选谓词抛出stackoverflow错误[ SPARK-22494 ] - 合并和AtLeastNNonNulls可...

2017-12-18 10:39:01 1496

翻译 [MongoDB faq]--频繁问的问题

原文参考:https://docs.mongodb.com/manual/faq/常见问题:MongoDB基础知识MongoDB支持哪些平台?MongoDB是作为托管服务提供的吗?集合与表格有什么不同?我如何创建一个数据库和一个集合?我如何定义或更改集合模式?MongoDB是否支持SQL?MongoDB是否支持事务?MongoDB是否处理缓存?MongoDB如何解决SQL或查询注入?常见问题:索引...

2017-12-18 10:00:15 402

数据仓库需求模板下载excel

1、需求变更申请单模版 2、数据仓库业务需求模板

2023-03-21

Canal开源产品介绍

早期,阿里巴巴B2B公司因为存在杭州和美国 双机房部署,存在跨机房同步的业务需求,当时 早期的数据库同步业务,主要是基于trigger的方式 获取增量变更。 从2010年开始,阿里系公司开始逐步的尝试基 于数据库的日志解析,获取增量变更进行同步, 由此衍生出了增量订阅&消费的业务,从此开启 了一段新纪元.

2018-08-23

window10的wget包

解压后,进入cmd命令行输入wget url即可使用。 举例:wget http://www.baidu.com

2017-12-13

redis-笔记

redis学习笔记

2016-08-31

cloudera-enterprise-datasheet.pdf

cloudera-enterprise-datasheet.pdf(企业和免费版区别)

2016-08-15

数据库性能调优.原理与技术.pdf

数据库性能调优.原理与技术.pdf

2016-08-14

spark论文原文:EECS-2014-12.pdf

伯克利大学spark论文原文:EECS-2014-12.pdf

2016-08-07

bigBench.pdf

Evaluating Hive and Spark SQL with BigBench

2016-08-07

文件hibernate

hibernate-mapping.dtd

2015-04-28

oracle架包

这是一个连接oracle数据库的连接架包哈

2015-04-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除