Pyspark 统计DF对象某字段的最大值、最小值及读取csv文件时忽略字段内前后空格

最新推荐文章于 2022-09-03 14:59:28 发布

追枫萨

最新推荐文章于 2022-09-03 14:59:28 发布

阅读量2.6k

点赞数

分类专栏： Spark 文章标签： python spark

本文链接：https://blog.csdn.net/m0_38052384/article/details/106102373

版权

Spark 同时被 2 个专栏收录

17 篇文章 1 订阅

订阅专栏

大数据

6 篇文章 0 订阅

订阅专栏

实现

from pyspark.sql.functions import *

#df_tmp为DF对象，包含列“captureTime”
df_tmp.agg(min(col("captureTime")),max(col("captureTime"))).show()

结果

读取忽略空格

#ignoreLeadingWhiteSpace=True ->忽略字段内前面空格
#ignoreTrailingWhiteSpace=True ->忽略字段内后面空格
df=sqlContext.read.csv(path_yitiji,header=True,ignoreLeadingWhiteSpace=True,ignoreTrailingWhiteSpace=True,encoding="utf-8")

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

追枫萨

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Pyspark 统计DF对象某字段的最大值、最小值及读取csv文件时忽略字段内前后空格

实现from pyspark.sql.functions import *#df_tmp为DF对象，包含列“captureTime”df_tmp.agg(min(col("captureTime")),max(col("captureTime"))).show()结果
复制链接

扫一扫