Spark 中dtypes函数

一座野山

于 2024-06-05 11:00:00 发布

阅读量335

点赞数 6

分类专栏： spark bigdata 文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/2301_81547508/article/details/139450309

版权

bigdata 同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

spark

11 篇文章 0 订阅

订阅专栏

前言

在Spark SQL中，dtypes函数用于获取DataFrame或Dataset中各列的数据类型信息。它返回一个由列名和数据类型组成的元组列表，其中每个元组表示一列的名称和相应的数据类型。

在Spark SQL中使用dtypes函数的示例代码：

# 导入必要的库
from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建示例DataFrame
data = [("Alice", 25, 165.5), ("Bob", 30, 180.0), ("Charlie", 35, 175.2)]
df = spark.createDataFrame(data, ["name", "age", "height"])

# 使用dtypes函数获取数据类型信息
column_types = df.dtypes

# 打印列名和数据类型
for column_name, data_type in column_types:
    print(f"Column '{column_name}' has data type '{data_type}'")

运行以上代码将输出：

Column 'name' has data type 'string'
Column 'age' has data type 'bigint'
Column 'height' has data type 'double'

上述示例中，首先创建了一个包含姓名、年龄和身高的DataFrame。然后，使用dtypes函数获取了DataFrame中每列的数据类型信息，并将结果存储在column_types变量中。最后，通过遍历column_types列表，打印了每列的名称和数据类型。

需要注意的是，dtypes函数返回的数据类型是基于Spark SQL的内部数据类型系统，而不是Python的原生数据类型。常见的Spark SQL数据类型包括字符串（string）、整数（integer或int）、长整数（bigint）、浮点数（double）、布尔值（boolean）等。

通过使用dtypes函数，您可以方便地获取DataFrame或Dataset中各列的数据类型信息，从而更好地了解和处理数据。