print(df)和df.show()

在linux做作业的时候想打印datdaframe,使用print(df)只打印出数据类型,使用df.show()才成功打印。

 但是之前在pycharm里可以使用print(df)

 虽然都是dataframe,猜想可能由于一个读取的是spark的json文件,一个读取的是sql数据库中的内容造成print的差异(spark-dataframe;pandas-dataframe);一个是在纯python的环境下,一个在spark中,即使使用的是pythob语句也是不一样的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
这段代码的作用是选取DataFrame对象中的written_by和imdb_rating列,并将imdb_rating列的数据类型转换为float类型,然后按照written_by列进行分组,计算imdb_rating列的平均值,并按照平均值进行降序排序,最后将结果转换为DataFrame对象。可以使用以下代码来运行: ```scala import org.apache.spark.sql.{SparkSession, DataFrame} import org.apache.spark.sql.functions._ val spark = SparkSession.builder() .appName("Aggregate IMDb Ratings") .getOrCreate() val csvPath = "hdfs://path/to/your/csv/file.csv" val df: DataFrame = spark.read .option("header", "true") .option("inferSchema", "true") .csv(csvPath) val writer_df = df.select(df("written_by"), df("imdb_rating").cast("float")) writer_df.show() val writer_avgdata = writer_df.groupBy("written_by") .mean("imdb_rating") .orderBy($"avg(imdb_rating)".desc) .toDF() writer_avgdata.show() ``` 在这里,我们首先使用上一个示例中的代码来读取CSV文件并创建DataFrame对象。接下来,我们使用DataFrame API的select方法来选取written_by和imdb_rating这两列,并使用cast方法将imdb_rating列的数据类型转换为float类型。然后,我们使用DataFrame API的groupBy和mean方法来按written_by列进行分组,并计算imdb_rating列的平均值。接下来,我们使用orderBy方法来按照平均值进行降序排序。最后,我们使用toDF方法将结果转换为DataFrame对象,并将其分配给变量writer_avgdata中,并使用DataFrame API的show方法来查看结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值