spark创建DataFrames

最新推荐文章于 2024-10-13 23:19:34 发布

RiverCode

最新推荐文章于 2024-10-13 23:19:34 发布

阅读量1k

点赞数

分类专栏： SparkSQL 文章标签： SparkSQL DataFrames

本文链接：https://blog.csdn.net/RiverCode/article/details/60596079

版权

SparkSQL 专栏收录该内容

2 篇文章

订阅专栏

1.DataFrame讲解

在Spark中，DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于，前者带有schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型。这使得Spark SQL得以洞察更多的结构信息，从而对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的优化，最终达到大幅提升运行时效率的目标。反观RDD，由于无从得知所存数据元素的具体内部结构，Spark Core只能在stage层面进行简单、通用的流水线优化。

2.讲解所用spark和scala版本号

spark version 1.6.0，scala version 2.10.4。

3.创建SQLContext()实例

val sqlContext = new SQLContext(sc)

本次讲解以官网下载的spark-2.1.0里的spark-2.1.0\examples\src\main\resources\people.json为例讲解。

people.json具体数据及格式如下图所示：

4.通过read读入文件

val df = new SQLContext(sc).read.json("E:\\spark-2.1.0\\spark-2.1.0\\examples\\src\\main\\resources\\people.json")

5.通过show()查看结果

df.show()

5.完整代码及结果

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

RiverCode

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark DataFrame的创建

weixin_54348877的博客

04-01

4056

目录 1. 环境准备 2. 从 txt 文件创建 DataFrame 3.从 RDD中创建 DataFrame 4. 一些错误 1. 环境准备开启虚拟机、开启hadoop集群、开启spark集群、开启spark-shell、在spark-shell中导入隐式转换包 hadoop集群输入：start-all.sh spark集群输入：cd /export/servers/spark ................. 输入：sbin/start-all.sh spark-shell.

Spark DataFrame的DSL操作

feizuiku0116的博客

11-24

1168

一、show方法功能：展示DataFrame中的数据，默认展示20条语法： df.show(参数1，参数2) - 参数1：默认是20，控制展示多少条 - 参数2：是否阶段列，默认只输出20个字符的长度，过长不显示，要显示的话，请填入truncate=True 二、printSchema方法功能：打印输出df的schema信息语法 df.printSchema() 三、select 功能：选择DataFrame中的指定列（通过传入参数进行指定）语法（可传递）：

参与评论您还未登录，请先登录后发表或查看评论

Spark创建DataFrame

AaronCao

09-24

988

1. DataFrame 在Spark中可以通过RDD转换为DataFrame，也可以通过DataFrame转化为RDD，DataFrame可以理解为数据的一个格式，实质show()就是一张表。读取数据构造DataFrame主要有以下几种方式：从Json文件中读取通过SQLContext构造类对象构造DataFrame 动态创建Schema构造当前的DataFrame结构从parquet文件中读取从MySQL中读取数据从Hive中读取数据 2. 从json文件读取构造DataFrame p

Spark DataFrame 的生成

myllxy

03-05

358

json 文件如下：一.读取json文件加载DataFrame import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SparkSession class dataframetest { } object dataframetest{ def main(args: Array[Stri...

Spark通过三种方式创建DataFrame

Knight

11-14

1444

【代码】Spark通过三种方式创建DataFrame。

Spark SQL DataFrames与Datasets编程详解

"加电检测-《spark 官方文档》spark sql dataframes 以及 datasets 编程指南" 本文主要探讨的是计算机开关电源的检测与维修，而非Spark SQL或DataFrames、Datasets的相关内容。不过，这里我们可以从描述中提取出...

Spark SQL and DataFrames-java - Spark 1.6.2

08-19

文档提到了一些编程指南的入门内容，例如如何使用SQLContext来开始使用Spark SQL，以及如何创建DataFrames。创建DataFrames可以通过反射来推断数据集的模式，或者也可以通过编程的方式明确指定数据集的模式。在创建...

spark大规模数据全排序_使用Spark DataFrames进行大规模数据科学

cumo3681的博客

06-08

1006

spark大规模数据全排序当我们首次开源Spark时，我们旨在提供一种简单的API，以通用编程语言（Java，Python，Scala）进行分布式数据处理。通过对分布式数据集合（RDD）进行功能转换，Spark启用了分布式数据处理。这是一个功能强大的API，以前需要花费数千行代码来表达的任务可以减少到数十个。随着Spark的不断发展，我们希望使大数据工程师以外的更多受众能够利用分布...

Intro to DataFrames and Spark SQL

04-17

读取和写入函数允许创建新的构建器（builders）来执行输入输出操作。在读取数据时，可以通过指定格式、采样比等选项来加载数据。而在写入数据时，可以指定格式、模式（如追加模式）、分区以及保存方式等，这为数据...

操作dataframe

淮南草的博客

03-09

222

过滤 dataframe中的多个列分组

Spark---创建DataFrame的方式

yaya_jn的博客

11-30

2127

5、DataFrame是一个Row类型的RDD，df.rdd()/df.javaRdd()。3、DataFrame原生API可以操作DataFrame。4、注册成临时表时，表中的列默认按ascii顺序显示列。2、df.show()默认显示前20行数据。ErrorIfExists：如果存在就报错。1、可以两种方式读取json格式的文件。两种方式创建DataFrame。Ignore：如果存在就忽略。Overwrite：覆盖。

Spark DataFrames入门指南：创建和操作DataFrame

11-29

6199

一、从csv文件创建DataFrame 　　本文将介绍如何从csv文件创建DataFrame。如何做？　　从csv文件创建DataFrame主要包括以下几步骤：　　1、在build.sbt文件里面添加spark-csv支持库；　　2、创建SparkConf对象，其中包括Spark运行所有的环境信息；　　3、创建SparkContext对象，它是进入Spark的核心切入

Apache Spark DataFrames入门指南：创建DataFrame

qiezikuaichuan的专栏

07-28

530

Apache Spark DataFrames入门指南：创建DataFrame http://www.iteblog.com/archives/1565(转 1:从csv文件创建DataFrame 1/在build.sbt文件里面田间spark-csv支持库 com.databricks spark-csv_2.10 1.3.0 3/ impor

DataFrame操作

zhoufa.vip

08-07

760

dataFrame学习

Spark SQL之DataFrame，df对象的创建与使用