自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 基于Docker的大数据开发环境 - HDP Sandbox

文章目录Sandbox获取系统要求脚本下载与执行Sandbox验证UI验证功能验证HDFS验证Hive验证Spark验证Sandbox管理停止Sandbox重启Sandbox清理Sandbox总结参考链接大数据开发对运行环境和数据的依赖比较重,比如开发Spark应用,往往会依赖Hive,但本地开发环境是没有Hive的,所以需要在本地和服务器之间拷贝代码,效率不高,我认为用Docker在本地搭建一套单机的大数据集群,然后将代码拷贝到容器里进行测试,可以改善这种情况。我自己对这个思路做过探索:https://

2021-02-06 16:34:08 1452

翻译 深入浅出Spark Join

文章目录影响Spark Join操作的三个因素输入数据集的大小Join条件Join类型Spark Join的执行机制Hash JoinBroadcast Hash JoinShuffle Hash JoinSort Merge JoinCartesian JoinBroadcast Nested Loop JoinSpark如何选择Join机制何时使用Broadcast Hash Join何时使用Shuffle Hash Join何时使用Sort Merge Join何时使用Cartesian Join何时

2020-11-28 10:43:00 332

翻译 过滤Spark数据集的四种方法

文章目录FilterMapMapPartitionsInner Join总结在实际工作中,根据某个字段,对一个Spark数据集进行过滤,是一个很常见的场景,举个例子:一个存储公司员工信息的数据集A,有以下三个字段:id: Integername: Stringage: Integer现在要过滤出某些员工的id,这些id在B集合(B可能是哈希表,也可能是Spark数据集)中,过滤逻辑为:C = A.filter(A.id in B)有四种方法可以实现,分别为:FilterMapMa

2020-11-16 20:50:31 3866

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除