DataFrame基础知识

22 篇文章 0 订阅
17 篇文章 0 订阅

目录📑

一.DataFrame 简介 👍

二.DataFrame 的创建 👍

三.DataFrame 的常用操作 👍


一.DataFrame 简介

Spark SQL使用的数据首先并非RDD,而是DataFrame

DataFrame是一种以RDD为基础的分布式数据集,DataFrame可以完成RDD的绝大多数功能。

DataFrame的结构类似于传统数据库的二维表格,并且可以从很多数据源中创建,如结构化文件、外部数据库、Hive表等数据源。

RDD:分布式弹性数据集,分布式Java对象存储。

DataFrame:可以看出分布式Row对象的集合,在二维表数据集的每一列都带有名称和类型,这些就是schema(元数据)

DataFrame与Hive类似支持嵌套数据类型(如Struct、Array、Map)

DataFrame:除了提供比RDD更丰富的算子外,更重要的特点是提升Spark框架执行效率,减少数据的读取时间,和优化执行结果

二.DataFrame 的创建

先启动集群和Spark

zkServer.sh start(在opt目录下)

start-all.sh(随意目录下)

sbin/start-all.sh(在spark目录下启动)

在slave1和slave2下启动zkServer.sh start

数据准备

在spark目录下创建文本

vi person.txt

输入如下内容

hadoop fs -put person.txt /spark/

hadoop fs -ls /spark/  (查看是否成功)

#启动Spark-Shell

#Spark-shell –master local[2]

或者如下

Step 3  启动Spark

bin/spark-shell spark://master:7077,slave1:7077,slave2:7077

直接创建DataFrame

val personDataFrame = spark.read.text("/spark/person.txt")

personDataFrame.printSchema()

personDataFrame.show()

RDD转换DataFrame

通过RDD的toDF()方法,可以将RDD转换为DataFrame对象,具体代码如下所示:

//读文件并按空格分割成 数组RDD 

val lineRDD = sc.textFile("/spark/person.txt").map(_.split(" "))

//定义样式类

case class Person(id:Int,name:String,age:Int)

//转换成lineRDD

val personRDD = lineRDD.map(x=>Person(x(0).toInt, x(1),x(2).toInt))

//转换DataFrame

val personDataFrame = personRDD.toDF()

//显示DataFrame

personDataFrame.show

三.DataFrame 的常用操作

DataFrame提供了两种语法风格,1 DSL风格语法,2 SQL语法风格

DSL风格语法:

1 show:查看DataFrame中具体类容信息

2 printSchema:查看DataFrame中Schema信息

3 select:查看DataFrame中选取部分列的数据

personDataFrame.show

personDataFrame.printSchema

Select:col:某一列,as:重命名  filter:过滤groupBy() ,对记录进行分组sort排序

personDataFrame.select(personDataFrame.col("name")).show

personDataFrame.filter (personDataFrame.col("age")>=25).show

personDataFrame.sort (personDataFrame.col("age").desc).show

  • 11
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 15
    评论
在Python中,DataFrame是pandas库中的一个数据结构,类似于表格或者电子表格。DataFrame可以用来处理和分析结构化数据。 要使用DataFrame,你可以使用DataFrame类的构造函数,传入一个字典、二维数组、Series对象等作为参数。你还可以通过设置index和columns参数来指定行索引和列标签。 使用loc属性可以根据行标签和列标签来访问DataFrame中的数据。例如,使用loc可以选择特定的行和列,或者使用切片操作选择连续的行和列。你可以参考引用中的链接了解更多关于loc属性的使用。 另外,如果你希望将一个字典转换为DataFrame,并且希望转换后的DataFrame的行顺序和原始数据一致,你可以使用pd.DataFrame.from_dict函数,并设置orient参数为'index'。这样转换后的DataFrame的行将按照原始字典中的顺序排列,你可以参考引用中的代码示例。 另外,如果你有一个嵌套字典,并且想将其转换为DataFrame,你可以直接使用pd.DataFrame构造函数,并传入嵌套字典作为参数。你可以参考引用中的代码示例。 总结起来,Python中的DataFrame可以通过构造函数和相关属性(如loc、iloc等)来创建和操作。可以根据需要选择不同的方法来处理和分析DataFrame中的数据。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Python之DataFrame基础知识点](https://blog.csdn.net/u012856866/article/details/118936961)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

发量不足

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值