spark
天文学
这个作者很懒,什么都没留下…
展开
-
spark 实现大表数据关联
在做 mysql 或其他数据迁移的时候,有时候需要将两份或者多份数据进行合并,生产一份新的数据后进行使用,对于数据量较小的场景下,可以直接使用 sql 语句进行关联,但是对于两张或者多张千万级记录的表进行合并时,使用 sql 进行 join 操作是不现实的,在这些场景下,需要使用 spark 或者 hive 进行操作。本文介绍如何使用 spark 进行大数据量的合并。本文中提到的大表,数据量一般在几百万或者千万甚至是亿级别。小表的数据量一般在 1万条记录以内。1. 大数据关联表一般会遇到三种情形:一原创 2020-10-16 16:18:02 · 3400 阅读 · 1 评论 -
spark windows idea开发环境搭建
安装 scala sdk下载 scala 免安装包 https://www.scala-lang.org/download/2.11.12.html, scala 版本分为 2.11.x 和 2.12.x 两种,此处选择 2.11.x,在开发过程中,选择 maven 中的 jar 包时,也要注意使用的 scala 版本,需要版本对应。https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.zip解压到本地目录,并配置环境变量..原创 2020-10-15 18:19:11 · 302 阅读 · 1 评论