Spark数据读取

最新推荐文章于 2022-08-28 20:39:32 发布

weixin_34185560

最新推荐文章于 2022-08-28 20:39:32 发布

阅读量153

点赞数

文章标签：大数据 r语言 python

原文链接：http://www.cnblogs.com/solong1989/p/9342589.html

版权

　　用惯了python或者R语言的DataFrame格式，对spark的RDD编程模式一开始上手可能有点不习惯。本文简单梳理一下spark中常用的RDD操作。

1.初始化spark环境

2.读取本地文件

　　读取本地文件之后，一般都是转换成Row类型RDD，方便后续操作；同时RDD转成DataFrame前，一定要先转化成Row类型的RDD。

　　当然，也可以将读取文件和转化成Row类型RDD写在一行代码中：

3.RDD转成DataFrame

　　当然，我们依然可以用一行代码，将2、3步合并为一步，直接将读取的RDD转化成DataFrame，结果和上面是一样的；代码的含义为：选取了第1、2、3、4列生成DataFrame，列名为"id"，"orders"，"sumPrice"，"avgPrice"。

4.Spark Sql直接读取csv文件为DataFrame

　　如果是csv格式文件，可以直接利用spark sql读取成DataFrame，其中"com.databricks.spark.csv"，是利用到了由databricks公司开发并开源外部数据源接口，通过这个类库我们才可以在spark sql中解析并查询CSV中的数据。

5.数据类型转换

　　spark默认以String类型读取本地数据，我们可以根据需求，在读取数据过程中进行数据类型转换，例如转换成Double类型：

　　也可以用map函数将指定的列进行数据类型转换，其他列不变；例如只将第2、3个字段转换成Double：

转载于:https://www.cnblogs.com/solong1989/p/9342589.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34185560

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Spark读取kafka数据实时单词计数（WordCount）

weixin_45264992的博客

10-13

394

Spark读取kafka数据实时单词计数（WordCount）依赖： <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.1.2</versio

【SPARK】浅谈Spark数据读取并行度获取及数据分区存储

SmallScorpion

02-15

1664

浅谈Spark数据读取并行度获取及数据分区存储

参与评论您还未登录，请先登录后发表或查看评论

spark 读取各类数据源

贾红平

04-15

5295

本文章主要通过代码实现spark读取各类数据源1 spark读取hive数据import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.DataFrame; import org.apache.spark.sql.Row; impo...

spark读取其他服务器文件,spark（三）：spark的数据读取和保存

weixin_35698952的博客

08-04

660

一、spark支持的文件格式1、文本文件，每行一条记录使用sc.textFile来读取一个文件，使用saveAsTextFile方法将RDD保存为一个文件2、JSON格式文件，大多是每行一条记录这里需要注意是每一行是一个JSON记录还是跨行的，如果是跨行的那么就要解析整个文件3、CSV文件4、SequenceFile基于键值对的hadoop文件格式5、对象文件，其是基于java的序列化生成的文件6...

fprintf函数的用法_man用法总结

weixin_39782545的博客

11-26

438

遇到不熟悉的 Linux 命令，除了上网搜外，最好是查看系统自带的帮助文档。一来，这是第一手资料，肯定是最准确的；二来，相对网上东一榔头西一棒子的解释，更具有系统性。虽然 man 命令非常简单，但也会碰到一些疑惑，下面我总结了一下，让以后使用 man 更游刃有余。多个man结果使用 man 的第一个坑是，同一个关键字可能会有多个结果。如果对此不了解，阅读错误的文档，会搞得自己一团浆糊，甚至造成阅读...

SparkStreaming读取指定目录中的文本进行单词计数

刚毅的博客

12-21

1360

SparkStreaming读取指定目录中的文本进行单词计数例子开发和运行环境 IDEA 2018.2 jdk1.8.0_151 scala-2.11.12 spark_2.4.0 Linux centos 3.10.0-327.el7.x86_64 GNU/Linux Spark版本在pom.xml，配置使用Spark的2.4.0版本 <groupId>...

Spark读取mysql数据

程序员

08-31

1310

public void getStudentName() throws IOException { Properties properties = new Properties(); properties.put("driver", ApplicationYmlUtils.getDataSourceDriverClassName()); properties.put("user", ApplicationYmlUtils.getDataSourceUsern.

spark读取hbase数据，并使用spark sql保存到mysql

09-24

本示例将详细介绍如何使用 Spark 从 HBase 中读取数据，并通过 Spark SQL 将其存储到 MySQL 数据库中。首先，让我们了解 Spark 与 HBase 的交互。Spark 提供了 `spark-hbase-connector` 库，允许我们方便地连接到 ...

Spark读取MySQL数据

一个数据小开发的博客

12-31

1890

1、什么是ELT 数据工程师，多数情况下接触过ETL，即提取（Extract）、转换（Transform）、加载（Load），随着越来越多的计算平台能力的崛起，很多时候，数据工程师按照ELT进行数据操作，即按照提取（Extract）、加载（Load）、转换（Transform），此好处就是，数据的转换可以借助于强大的计算平台，而数据同步工具只需要更多的关注数据的提取和加更加简单快捷的为开发者提高效率。 2、为什么选择Spark a）在日益增长的业务数据同步过程中，很多传统ETL工具都是单机运行，搭建一

Spark——数据读取与保存

weixin_43520450的博客

09-12

1574

Spark 的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统。文件格式分为：Text 文件、Json 文件、Csv 文件、Sequence 文件以及 Object 文件；文件系统分为：本地文件系统、HDFS、HBASE 以及数据库。一、文件类数据读取与保存 1.1 Text 文件 (1）数据读取:textFile(String) scala> val hdfsFile = sc.textFile("hdfs://hadoop102:9000/fruit.txt") hdfsF

spark二次排序

iDuanyingjie的专栏

02-23

970

一般的二次排序，可以参考https://www.iteblog.com/archives/1819.html这篇文章，但是他的这种方式有问题。在这块代码：item._2.toList.sortWith(_.toInt<_.toInt)如果数据量非常大的话，会全部加在到内存中，容易造成内存溢出。在spark中可以使用repartitionAndSortWithinPartitions这个算子，它会一边

Spark从外部数据集中读取数据

来吧，和鹿丸君一起打豆豆！

08-02

2445

本文将介绍几种从Spark中读取数据存入RDD的方式，分别是 - 从HDFS中读数据 - 从MySQL数据库中读数据 - 从HBase数据库中读数据本文中涉及到的工具版本如下： - Hadoop：2.7.4 - Spark：2.1.1 - HBase：1.2.6 - MySQL：5.7.22 - JDK...

四、Spark数据保存与读取

RobinLiew的博客

05-29

1911

一、文本文件读取文件 textFile() 当我们将一个文本文件读取为RDD时，输入的每一行都会成为RDD的一个元素。也可以将多个完整的文本文件一次性读取为一个pair RDD，其中键是文件名，值是文件内容。使用wholeTextFiles()方法：它也以目录为参数，返回一个 pair RDD,其中key是输入文件的文件名，value是对应文件的所有数据，size为文件个数。 wholeTextFiles() 在每个文件表示一个特定时间段内的数据时非常有用。比如文件表示不同阶段销售数据,则可

Spark--数据的读取与保存

lucasmaluping的专栏

03-26

1039

一、动机　　我们已经学了很多在 Spark 中对已分发的数据执行的操作。到目前为止，所展示的示例都是从本地集合或者普通文件中进行数据读取和保存的。但有时候，数据量可能大到无法放在一台机器中，这时就需要探索别的数据读取和保存的方法了。　　Spark 及其生态系统提供了很多可选方案。本章会介绍以下三类常见的数据源。　　• 文件格式与文件系统：对于存储在本地文件系统或分布式文件系统（比如 N...

Spark如何读取一些大数据集到本地机器上

三劫散仙

01-04

1002

最近在使用spark处理分析一些公司的埋点数据，埋点数据是json格式，现在要解析json取特定字段的数据，做一些统计分析，所以有时候需要把数据从集群上拉到driver节点做处理，这里面经常出现的一个问题就是，拉取结果集过大，而驱动节点内存不足，经常导致OOM，也就是我们常见的异常: [code="java"]```` java.lang.OutOfMemoryError: Ja...

spark 读取mysql数据

知识的力量

11-05

1351

import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, SparkContext} object JdbcRDDDemo { def main(args: Array[String]) { System.setProperty("ha

Spark数据读取格式解析

unity_kw_do的博客

06-02

8797

1.文本文件在 Spark 中读写文本文件很容易。当我们将一个文本文件读取为 RDD 时，输入的每一行都会成为 RDD 的一个元素。也可以将多个完整的文本文件一次性读取为一个 pair RDD，其中键是文件名，值是文件内容。在 Scala 中读取一个文本文件 1 2 val inputFile = "file:///h

Spark读取外部数据的几种方式

Messi的小迷弟

08-21

3175

一、spark读取csv文件（四种方式） //方式一：直接使用csv方法 val sales4: DataFrame = spark.read.option("header", "true").option("header", false).csv("file:///D:\\Software\\idea_space\\spark_streaming\\src\\data\\exam\\sales.csv") .withColumnRenamed("_c0", "time") .withC

Spark学习笔记(二)：Spark基础操作

liuffei的专栏

08-28

898

Spark Transformation操作懒方法基础操作

【Spark】Spark对数据的读入和写出操作

HR的博客

12-24

8036

Spark对数据的读入和写出操作数据存储在文件中CSV类型文件JSON类型文件Parquet操作分区操作数据存储在Hive表中数据存储在MySQL中数据存储在文件中在操作文件前，我们应该先创建一个SparkSession val spark = SparkSession.builder() .master("local[6]") .appName("reader1") .getOrCreate() CSV类型文件简单介绍：逗号分隔值（Comma-Separ