spark初探,官方文档

本文介绍了pyspark.sql模块中的SparkSession和DataFrame,重点讲解了SparkSession的创建、数据读取、DataFrame的构建以及聚合操作。SparkSession是DataFrame和SQL功能的入口,可以创建DataFrame,执行SQL操作,处理缺失值并进行统计分析。DataFrame是分布式的列式数据集,提供了丰富的数据处理功能。
摘要由CSDN通过智能技术生成

pyspark.sql

  • pyspark.sql.SparkSession Main entry point for DataFrame and SQL functionality. SQL功能和DataFrame的主要入口
  • pyspark.sql.DataFrame A distributed collection of data grouped into named columns. 分布式数据集合,感觉有点像pandas的DF
  • pyspark.sql.Column A column expression in a DataFrame.
  • pyspark.sql.Row A row of data in a DataFrame.
  • pyspark.sql.GroupedData Aggregation methods, returned by DataFrame.groupBy(). 不知道这玩意啥用
  • pyspark.sql.DataFrameNaFunctions Methods for handling missing data (null values). 缺失值的处理
  • pyspark.sql.DataFrameStatFunctions Methods for statistics functionality. 统计功能
  • pyspark.sql.functions List of built-in functions available for DataFrame. DataFrame可用的内置函数列表
  • pyspark.sql.types List of data types available.数据类型的类型列表
  • pyspark.sql.Window For working with window functions.用于处理窗口函数

SparkSession

spark编程 DataFrame and SQL的API

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值