Spark 中dtypes函数

前言


在Spark SQL中,dtypes函数用于获取DataFrame或Dataset中各列的数据类型信息。它返回一个由列名和数据类型组成的元组列表,其中每个元组表示一列的名称和相应的数据类型。

在Spark SQL中使用dtypes函数的示例代码:


# 导入必要的库
from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建示例DataFrame
data = [("Alice", 25, 165.5), ("Bob", 30, 180.0), ("Charlie", 35, 175.2)]
df = spark.createDataFrame(data, ["name", "age", "height"])

# 使用dtypes函数获取数据类型信息
column_types = df.dtypes

# 打印列名和数据类型
for column_name, data_type in column_types:
    print(f"Column '{column_name}' has data type '{data_type}'")

运行以上代码将输出:


Column 'name' has data type 'string'
Column 'age' has data type 'bigint'
Column 'height' has data type 'double'

上述示例中,首先创建了一个包含姓名、年龄和身高的DataFrame。然后,使用dtypes函数获取了DataFrame中每列的数据类型信息,并将结果存储在column_types变量中。最后,通过遍历column_types列表,打印了每列的名称和数据类型。

需要注意的是,dtypes函数返回的数据类型是基于Spark SQL的内部数据类型系统,而不是Python的原生数据类型。常见的Spark SQL数据类型包括字符串(string)、整数(integerint)、长整数(bigint)、浮点数(double)、布尔值(boolean)等。

通过使用dtypes函数,您可以方便地获取DataFrame或Dataset中各列的数据类型信息,从而更好地了解和处理数据。

  • 6
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值