pyspark系列--dataframe基础

振裕

于 2018-03-23 22:32:45 发布

阅读量7.8k

点赞数 2

分类专栏： spark 数据分析文章标签： spark dataframe

本文链接：https://blog.csdn.net/suzyu12345/article/details/79673493

版权

这篇博客介绍了PySpark中DataFrame的基础操作，包括连接本地Spark、创建DataFrame、查看字段类型、列名、行数，以及重命名列、选择和切片筛选、删除和增加列、转JSON、排序和处理缺失值等核心功能。

摘要由CSDN通过智能技术生成

dataframe基础

1. 连接本地spark
2. 创建dataframe
3. 查看字段类型
4. 查看列名
5. 查看行数
6. 重命名列名
7. 选择和切片筛选
8. 删除一列
9. 增加一列
10. 转json
11. 排序
12. 缺失值

1. 连接本地spark

import pandas as pd
from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .appName('my_first_app_name') \
    .getOrCreate()

2. 创建dataframe

# 从pandas dataframe创建spark dataframe
colors = ['white','green','yellow','red','brown','pink']
color_df=pd.DataFrame(colors,columns=['color'])
color_df['length']=color_df['color'].apply(len)

color_df=spark.createDataFrame(color_df)
color_df.show()

3. 查看字段类型

最低0.47元/天解锁文章

振裕

关注

2
点赞
踩
23

收藏

觉得还不错? 一键收藏
1
评论
pyspark系列--dataframe基础

dataframe基础 1. 连接本地spark2. 创建dataframe3. 查看字段类型4. 查看列名5. 查看行数6. 重命名列名7. 选择和切片筛选8. 删除一列9. 增加一列10. 转json11. 排序12. 缺失值1. 连接本地sparkimport pandas as pdfrom pyspark.sql import Spa...
复制链接

扫一扫

专栏目录