SparkSQL 优雅地读取CSV文件[示例]

最新推荐文章于 2021-11-25 21:30:37 发布

大数据流浪法师

最新推荐文章于 2021-11-25 21:30:37 发布

阅读量999

点赞数 1

分类专栏： # Spark 文章标签： spark sparlsql

本文链接：https://blog.csdn.net/weixin_42072754/article/details/105626392

版权

Spark 专栏收录该内容

60 篇文章 2 订阅

订阅专栏

第一种：Spark2.0之前通过外部包的形式

第一步：导入依赖

<dependency>
	<groupId>com.databricks</groupId>
	<artifactId>spark-csv_2.10</artifactId>
	<version>1.4.0</version>
</dependency>

第二步：代码示例

val linesDF: DataFrame = spark.read.format("com.databricks.spark.csv")//格式化为外部包
	.option("header","true")//第一行舍弃
	.option("inferSchema",false.toString)//不自动推断类型
    .load("E:\\cache\\sparkCache\\20200419\\class_info\\class_info.csv")

第二种：Spark2.0之后通过SparkSession的形式

val data = spark.read.format("csv")//格式化为csv
    .option("header","true")//第一行舍弃
    .load("file:///home/20200419/class_info/class_info.csv")

在文件路径下加"file://” 如果不加，程序会自动搜索hdfs的路径而不是本地路径

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

大数据流浪法师

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

14 | Spark SQL 的 DataFrame API 读取CSV 操作

微信号：RunsenLiu

09-03

1892

在这个需求中，我们将使用 Apache Spark 的 DataFrame API 对包含销售数据的 CSV 文件进行不同类型的数据操作。当使用 Spark SQL 的 DataFrame API 读取 CSV 文件时，你可以按照以下步骤进行操作。从包含销售数据的 CSV 文件中加载数据，并创建一个 DataFrame 来存储它。方法显示 DataFrame 的前几行数据，以便查看数据的内容。将包含多个值的列拆分成多个列，以便更细粒度地处理数据。将多个列的值合并成一个新的列，以便创建更有用的信息。

SparkSQL 使用SQLContext读取csv文件分析数据（含部分数据）

08-13

NULL 博文链接：https://humingminghz.iteye.com/blog/2309413

1 条评论您还未登录，请先登录后发表或查看评论

SparkSQL读取CSV文件

qq_37004052的博客

10-22

1万+

一、核心代码 val spark = SparkSession .builder() .master("local[2]") .appName("app") .getOrCreate() //读取文件 val sr...

Spark-sql 通过case class、class和StructType的方式创建DataFrame

m0_46538284的博客

01-04

3530

1.通过case class 的方式创建DataFrame laozhao,18,9999.99 laoduan,30,99.99 xuance,28,99.99 yeqing,25,99.0 dezhi,24,99.9 libai,88,50.0 banzang,29,50.6 import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame,.

spark Sql 读写CSV文件

小哇

03-12

2102

people.json文件内容 {"name":"Michael", "age":29} {"name":"Andy", "age":30} {"name":"Justin", "age":19} 测试代码 import org.apache.spark.sql.*; import org.apache.spark.sql.types.DataTypes; import org.apa...

使用Sparksql读取csv文件

03-29

以下是使用Sparksql读取CSV文件的示例代码： ```scala import org.apache.spark.sql.SparkSession // 创建SparkSession对象 val spark = SparkSession.builder() .appName("Read CSV with Spark") .master(...

你写一个sparksql读取csv文件案例

最新发布

04-07

你可以使用Spark SQL的CSV数据源来读取CSV文件。以下是示例代码： ``` from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession.builder.appName("Read CSV").getOrCreate() # 读取CSV...

用idea scala 编写一个sparksql读写csv文件的代码

03-16

在这个示例中，我们首先创建了一个SparkSession对象，然后使用该对象读取CSV文件。我们使用了两个选项来指定CSV文件的头和数据类型。然后我们显示了读取的数据，并将其写入另一个CSV文件中。请注意，您需要将...

SparkSQL读写外部数据源--csv文件的读写

aohuang8877的博客

09-08

540

object CSVFileTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .appName("CSVFileTest") .master("local") .getOrCreate() ...

【spark2.x】如何通过SparkSQL读取csv文件

Maynor的博客

11-25

2102

package cn.itcast.spark.source import java.util.Properties import org.apache.spark.sql.types.{DoubleType, IntegerType, LongType, StructType} import org.apache.spark.sql.{DataFrame, SparkSession} object _03SparkSQLSourceTest { def main(args: Array[Str

SparkSql读取csv实现统计功能

技术成就梦想

03-01

3034

前面已经介绍过有关sparksql读取json文件取得DataSet的功能，但实际开发中除了json外还可以使用csv、数据库等作为sparksql的数据源，因为csv日常开发也用的很多所以借此机会把我的学习代码分享给大家一关于csv的schema sparksql读取csv可以根据csv文件的第一行作为header自动推导出列名或schema,也可以通过手动的方式指定schema,自动推...

java spark读取csv_在读取CSV文件时支持SparkSQL中的Map数据类型

weixin_29240711的博客

03-01

597

我有一个CSV文件，其中包含各自列中的Map类型数据和Array类型数据 . 我试图在SparkSQL中创建一个数据框，但它会抛出一个错误，说不支持的类型映射和数组 . 我在Spark 1.6.3和Spark 2.2.1中尝试过这个 . 这是代码：Spark1.6.3：pyspark --packages com.databricks:spark-csv_2.10:1.5.0from pyspar...

java spark 保存_spark 数据的读取与保存

weixin_27011811的博客

02-25

575

spark 数据的读取与保存文件格式Spark 支持的一些常见格式：格式名称结构化备注文本文件否普通的文本文件，每行一条记录JSON半结构化常见的基于文本的格式；大多数库都要求每行一条记录CSV是基于文本，通常在电子表格中使用SequenceFiles是用于键值对数据的常见Hadoop文件格式Proto buffers是快速、解决空间的跨语言格式对象文件是用来将Spark作业的数据存储下来以让共享...

Spark读取外部数据的几种方式

Messi的小迷弟

08-21

3125

一、spark读取csv文件（四种方式） //方式一：直接使用csv方法 val sales4: DataFrame = spark.read.option("header", "true").option("header", false).csv("file:///D:\\Software\\idea_space\\spark_streaming\\src\\data\\exam\\sales.csv") .withColumnRenamed("_c0", "time") .withC

spark读取、保存.csv文件、并指定编码格式

qq_56870570的博客

07-05

1万+

一、用spark实现读取csv文件核心代码： val spark = SparkSession .builder() .master("local[*]") .appName("app") .getOrCreate() //读取文件 //方式一： val srcDF = spark .r

spark 读取CSV文件

haozhangyn的专栏

02-12

1万+

1. spark 读取CSV文件；可以直接使用DataBricks的第三方包来读取CSV文件，下载第三方包后放入指定路径 1.1 定义数据格式导入数据之前我们需要按照具体的数据格式定义数据格式采用StructType定义字段格式，与数据集中的各个字段一一对应。 // StructField 中的的三个参数分别为字段名称、字段数据类型和是否不允许为空。 val fie

Spark 读写CSV的常用配置项

三丰的专栏

06-03

2万+

Spark创建DataFrame和读取CSV数据文件