pyspark(一) DataFrame结合jupyter入门

本文详细介绍了DataFrame在Spark中的核心概念,包括其基于RDD的分布式特性、schema元数据、延迟求值的实现、数据展示、内存管理以及与pandas的集成。此外,还涵盖了文件I/O、SQL交互和用户定义函数(UDF)等内容。
摘要由CSDN通过智能技术生成

DataFrame描述

DataFrame是一个二维表结构,包括行、列以及schema(元数据)

在 Spark 中,DataFrame 是一种以 RDD 为基础的分布式数据集,是一种特殊的RDD,是一个分布式的表,类似于传统数据库中的二维表格。DataFrame 与 RDD 的主要区别在于,前者带有 schema 元信息,即 DataFrame 所表示的二维表数据集的每一列都带有名称和类型。

PySpark DataFrames是延迟求值的。它们是在RDD之上实现的。当Spark转换数据时,它不会立即计算转换,而是计划以后如何计算。当显式调用collect()等操作时,计算就会开始

代码展示

入口以及创建

普通创建

普通创建+schema

 

 根据pandas创建

打印信息 

数据展示

打印元数据信息

展示指定行

展示列名

describe汇总

collet

防止内存溢出,打印指定行行数

toPandas()

返回指定列

返回指定列实例

分配新的列

过滤器 

分组计算示例

写入文件&读取文件&指定压缩格式

csv

parquet

转换SparkSql 

sql运行

UDF函数

  • 10
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值