dataframe python 排序取前十_pyspark系列--dataframe基础

最新推荐文章于 2024-04-28 02:12:21 发布

weixin_39633807

最新推荐文章于 2024-04-28 02:12:21 发布

阅读量1.3k

点赞数

文章标签： dataframe python 排序取前十

本文链接：https://blog.csdn.net/weixin_39633807/article/details/112113658

版权

本文介绍了PySpark DataFrame的基础操作，包括连接本地Spark、创建DataFrame、查看字段类型、列名和行数，以及重命名列、选择筛选、删除与增加列、转换为JSON、排序、处理缺失值和与Python变量的互转。特别是选择和切片筛选，是DataFrame最常用且重要的操作。

摘要由CSDN通过智能技术生成

dataframe基础

1. 连接本地spark
2. 创建dataframe
3. 查看字段类型
4. 查看列名
5. 查看行数
6. 重命名列名
7. 选择和切片筛选
8. 删除一列
增加一列
9. 转json
10. 排序
11. 缺失值
12. sparkDataFrame和python变量互转

1. 连接本地spark

import pandas as pd
from pyspark.sql import SparkSession

spark = SparkSession 
    .builder 
    .appName('my_first_app_name') 
    .getOrCreate()

2. 创建dataframe

# 从pandas dataframe创建spark dataframe
colors = ['white','green','yellow','red','brown','pink']
color_df=pd.DataFrame(colors,columns=['color'])
color_df['length']=color_df['color'].apply(len)

color_df=spark.createDataFrame(color_df)
color_df.show()