pyspark加pandas数据分析库数据清洗

from pyspark.sql import SparkSession  
import pandas as pd  
  
# 创建一个SparkSession  
spark = SparkSession.builder.appName("ReadHDFSFiles").getOrCreate()  
  
# 读取HDFS上的CSV文件(假设它们是CSV格式的)  
# 注意:这里使用了通配符'*'来匹配所有文件  
df = spark.read.csv("hdfs://hadoop102:8020/flume/20240509/18/logs-.1715250090277", header=True, inferSchema=True)  
  
# 将Spark DataFrame转换为pandas DataFrame(注意:只适用于小数据集)  
pdf = df.toPandas()  
  
# 现在你可以使用pandas进行清洗了  
# 例如,删除包含NaN的行  
pdf = pdf.dropna()  
  
# 或者使用numpy的函数进行某些计算  
import numpy as np  
pdf['some_column'] = np.where(pdf['some_column'] > 10, 'high', 'low')  
  
# ... 其他pandas和numpy的清洗操作 ...  
  
# 如果你需要将清洗后的数据写回HDFS(例如为Parquet格式),你可以这样做:  
 df.write.csv("hdfs://hadoop102:8020/cleaned_data/", sep="\t", header=True, mode="overwrite")

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值