pyspark 总结

最新推荐文章于 2024-07-20 00:19:29 发布

R戎

最新推荐文章于 2024-07-20 00:19:29 发布

阅读量742

点赞数 1

分类专栏： pyspark

本文链接：https://blog.csdn.net/R18830287035/article/details/95211221

版权

pyspark 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

1、数据处理

导入需要的库

from pyspark import StorageLevel
from pyspark.sql import functions as F
from pyspark.sql.types import StringType,IntegerType
from pyspark.sql import HiveContext
from pyspark.context import SparkContext
from pyspark.sql.functions import col

2、导入数据（parquet、csv、json、等格式）
导入parquet

sc = SparkContext("local", "test")
hive_context = HiveContext(sc)
local_path ="hdfs路径"

total_data = hive_context.read.load(local_path)

导入csv

sc = SparkContext("local", "test2")
hive_context = HiveContext(sc)
local_path = 'hdfs路径'
total_data = hive_context.read.csv(local_path
                             ,header=True
                            )

3、数据简单处理
以kaggle中旧金山犯罪记录分类数据为例，数据下载地址：
https://www.kaggle.com/c/sf-crime/data。

#查看前5条数据
data.show(5)

在这里插入图片描述

#查看数据结构
data.printSchema()

在这里插入图片描述

#查看数据等列名、行数、列数

data.columns
data.count()
len(data.columns)

在这里插入图片描述

# 描述制定列 describe
#如果我们要看一下数据框中某指定列的概要信息，我们会用describe方法。
#这个方法会提供我们指定列的统计概要信息，如果没有指定列名，它会提供这个数据框对象的统计信息。

ata.describe('Category').show()
data.describe().show()

在这里插入图片描述

#查询多列   可以使用select
data.select('Category','Descript').show()

在这里插入图片描述

# 查询不重复的多列组合
data.select('Category','Descript').distinct().show()

在这里插入图片描述

#过滤数据  filter  

data.filter(data.Category == 'WEAPON LAWS').show()
#一共多少条记录被筛选出来
data.filter(data.Category == 'WEAPON LAWS').count()
# 基于多个条件过滤
data.filter((data.Category == 'WEAPON LAWS')& (data.DayOfWeek == 'Wednesday')).show()

在这里插入图片描述

#分组数据 groupby
data.groupBy("Category").count().show()

在这里插入图片描述

#数据排序 orderBy
#默认 升序
data.groupBy("Category") \
    .count() \
    .orderBy(col("count")) \
    .show()

#可以降序
data.groupBy("Category") \
    .count() \
    .orderBy(col("count").desc()) \
    .show()