spark
文章平均质量分 65
tomjourney
积善之家 必有余庆
展开
-
(转)spark读取jdbc数据源分区
google搜索:spark java jdbc 分区。转载 2024-05-15 20:28:56 · 52 阅读 · 0 评论 -
java_spark使用索引分区抽数
转自:Spark RDD算子(八)mapPartitions, mapPartitionsWithIndex_val rdd1 = rdd.mappartitions(x=>x.map(_*2))-CSDN博客文章浏览阅读450次。mapPartions对一个rdd里所有分区遍历_val rdd1 = rdd.mappartitions(x=>x.map(_*2))转载 2024-04-22 20:21:25 · 67 阅读 · 0 评论 -
spark-window11本地环境搭建与wordCount
1)安装软件清单如下:参见: Windows环境下配置Spark3.0.0_QYHuiiQ的博客-CSDN博客原创 2023-05-28 10:49:03 · 339 阅读 · 0 评论 -
(精华)转:RDD:创建的几种方式(scala和java)
转:https://blog.csdn.net/weixin_38750084/article/details/82769600下面开始初始化sparkspark程序需要做的第一件事情,就是创建一个SparkContext对象,它将告诉spark如何访问一个集群,而要创建一个SparkContext对象,你首先要创建一个SparkConf对象,该对象访问了你的应用程序的信息比如下面的代码是运行在spark模式下 public class sparkTestCon { ...转载 2020-09-24 09:16:21 · 586 阅读 · 0 评论 -
转自: SparkConf 配置的概念和用法
一:概念Spark应用程序的配置,用于将各种Spark参数设置为键值对。大多数情况下,将使用新的SparkConf(),创建一个SparkConf对象,该对象将从您的应用程序中设置的任何spark.的Java系统属性加载值。 在这种情况下,* 直接在SparkConf对象上设置的参数优先于系统属性 **。二:使用无论官方还是自定义,spark配置一定是以“spark.*”开头scala> :quit[hadoop@hadoop001 bin]$ ./spark-shell ...转载 2020-09-24 08:52:00 · 489 阅读 · 0 评论 -
转:SparkConf 配置的用法
Spark应用程序的配置,用于将各种Spark参数设置为键值对。大多数情况下,将使用新的SparkConf(),创建一个SparkConf对象,该对象将从您的应用程序中设置的任何spark.*的Java系统属性加载值。 在这种情况下,** 直接在SparkConf对象上设置的参数优先于系统属性 **。对于单元测试,您还可以调用新的SparkConf(false)来跳过加载外部设置,并获得相同的配置,无论系统属性如何。此类中的所有setter方法都支持链式调用。new Spark...转载 2020-09-24 08:50:40 · 949 阅读 · 0 评论 -
转: Spark 的核心概念 RDD
转自:https://juejin.im/post/68449038269530767501.RDD 概述1.1 什么是 RDD ?RDD(Resilient Distributed Dataset) 叫着 弹性分布式数据集 ,是Spark 中最基本的抽象,它代表一个不可变、可分区、里面元素可以并行计算的集合。RDD 具有数据流模型特点:自动容错、位置感知性调度和可伸缩。RDD 允许用户在执行多个查询时,显示地将工作集缓存在内存中,后续的查询能够重用工作集,这将会极大的提升查...转载 2020-09-24 08:22:27 · 247 阅读 · 0 评论 -
转:Spark读取MySQL数据的Java代码
import java.io.InputStream;import java.util.Arrays;import java.util.Iterator;import java.util.List;import java.util.Properties;import org.apache.log4j.Logger;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apach...转载 2020-09-23 15:46:15 · 445 阅读 · 0 评论