data
文章平均质量分 83
独家雨天
数据热衷者,追求进步。分析大数据,提供决策支持。团队合作,沟通精通。
展开
-
一文让你记住Pyspark下DataFrame的7种的Join 效果
最近看到了一片好文,虽然很简单,但是配上的插图可以让人很好的记住Pyspark 中的多种Join 类型和实际的效果。原英文链接 Introduction to Pyspark join types - Blog | luminousmen 。假设使用如下的两个DataFrame 来进行展示heroes_data = [ ('Deadpool', 3), ('Iron man', 1), ('Groot', 7),]race_data = [ ('Kryptonian原创 2021-09-02 12:20:47 · 7533 阅读 · 0 评论 -
做了一个自启动 ssh 服务的 spark单机环境的镜像(alpine)
最近同同事 们一起在学习Spark,为了方便同事们的使用,也为了减少不必要的安装spark的坑,特意做了一个单机版本的Spark集群,供大家学习和使用。从官网可以看到,spark 已经为大家提供好了很多的命令进程的启动脚本,我们就选用最简单的 ${SPARK_HOME}/sbin/start-all.sh 脚本为了更加方便之后的扩展,特意的先做了一个基础的spark镜像,下载和配置好了各种spark所需要的运行环境。废话不多少,先上基本的spark docker 文件 base.dockerfile原创 2020-06-02 18:14:12 · 882 阅读 · 0 评论 -
Confluent Platform 的快速上手
什么是 Confluent Platform?先说下什么是 Confluent ? Confluent由ApacheKafka®的原始创建者创立的,以Kafka为技术核心的公司。Confluent提供了业界唯一的企业级事件流平台,从而为应用程序和数据基础架构带来了新的范例。Confluent Platform(平台)基于此理念开发出来, 可以很方便的建立实时的数据流和流处理应用。让用户更加关注...原创 2020-03-26 20:05:27 · 4122 阅读 · 0 评论