【小贪】大数据处理:Pyspark, Pandas对比及常用语法

本文概述了科研工作中常用的IT技术,包括数据库如MySQL和SparkSQL,大数据处理工具Pyspark和Pandas,以及图像处理、机器学习和深度学习库。文章详细比较了两者在分布式计算、内存管理、API和语法上的差异,适合理解和应用数据科学项目。
摘要由CSDN通过智能技术生成

近期致力于总结科研或者工作中用到的主要技术栈,从技术原理到常用语法,这次查缺补漏当作我的小百科。主要技术包括:

以下整理错误或者缺少的部分欢迎指正!!!

大数据处理常用:Pyspark, Pandas

性能对比

PysparkPandas
运行环境分布式计算集群(Hadoop/Apache Spark集群)单个计算机
数据规模亿级大规模百万级小规模
优势分布式计算->并行处理,处理速度快API简单->数据处理简单
延迟机制lazy execution, 执行动作之前不执行任务eager execution, 任务立即被执行
内存缓存persist()/cache()将转换的RDDs保存在内存单机缓存
DataFrame可变性不可变,修改则返回一个新的DataFrame可变
可扩展性
列名允许重复×

常用语法对比

# 头文件
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
from pyspark.sql.types import StructType, StructField, LongType, StringType, ArrayType  # 或者直接导入*
import pandas as pd


# 创建SparkSession对象
spark = SparkSession.builder \
    .appName("username") \
    .getOrCreate()


# 创建空表
schema = StructType([
                StructField('id', LongType()),
                StructField('type', StringType()),
            ])  # spark需要指定列名和类型
spark_df = spark.createDataFrame(spark.sparkContext.emptyRDD(), schema=schema)
pandas_df = pd.DataFrame(columns=['id', 'type'], index=[0, 1, 2])


# 根据现有数据创建
data = [(1, "Alice", 2000), (2, "Bob", 2001), (3, "Charlie", 2002)]
schema = StructType([
    StructField("id", IntegerType(), True),
    StructField("name", StringType(), True),
    StructField("birth_year", IntegerType(), True)
])
spark_df = spark.createDataFrame(data, ["id", "name", "birth_year"])
spark_df = spark.createDataFrame(data, schema)
pandas_df = pd.DataFrame(data=data, columns=["id", "name", "birth_year"])


# 读取csv文件
spark_df = spark.read.csv("data.csv", header=True, inferSchema=True)
pandas_df = pd.read_csv("data.csv", sep="\t")  # read_excel
# 保存数据到csv
spark_df.write.csv('data.csv', header=True)
pandas_df.to_csv("data.csv", index=False)

# 读取hive表数据
spark_df = spark.sql('select * from tab')
# 保存数据到hive表
spark_df.write.mode('overwrite').saveAsTable('db_name.tab_name')


# 相互转换
spark_df = SQLContext.createDataFrame(pandas_df)
pandas_df = spark_df.toPandas()


# 转换数据类型
spark_df = spark_df.withColumn("A", col("age").cast(StringType))
pandas_df["A"] = pandas_df['A'].astype("int")


# 重置索引
spark_df = spark_df.withColumn("id", monotonically_increasing_id())  # 生成一个增长的id列
pandas_df.reset_index()


# 切片
pandas_df['a':'c']  # a-c三行
pandas_df.iloc[1:3, 0:2]  # 1-2行,0-1列。左闭右开
pandas_df.iloc[[0, 2], [1, 2]] # 第0,2行第0,2列
pandas_df.loc['a':'c', ['A', 'B']] # 第a-c行A,B列


# 选择列
spark_df.select('A', 'B')
pandas_df[['A', 'B']]

# 删除列
spark_df.drop('A', 'B')
pandas_df.drop(['A', 'B'], axis=1, inplace=True)  # inplace表示是否创建新对象

# 新增列,设置列值
spark_df = spark_df.withColumn('name', F.lit(0))
pandas_df['name'] = 0

# 修改列值
spark_df.withColumn('name', 1)
pandas_df['name'] = 1
# 使用函数修改列值
spark_df = spark_df.withColumn('code', F.when(F.isnull(spark_df.code), 0).otherwise(spark_df.code))

# 修改列名
spark_df.withColumnRenamed('old_name', 'new_name')
pandas_df.rename(columns={'old_name1': 'new_name1', 'old_name1': 'new_name2'}, inplace=True)


# 显示数据
spark_df.limit(10) # 前10行
spark_df.show/take(10)  # collect()返回全部数据
spark_df/pandas_df.first/head/tail(10)


# 表格遍历
saprk_df.collect()[:10]
spark_df.foreach(lambda row: print(row['c1'], row['c2']))
for i, row in pandas_df.iterrows():
    print(row["c1"], row["c2"])


# 排序
spark/pandas_df.sort()  # 按列值排序
pandas_df.sort_index()  # 按轴排序
pandas_df.sort_values(by=["A", "B"], axis=0, ascending=[True, False], inplace=True)  # 指定列升序/降序排序


# 过滤
spark_df.filter(df['col_name'] > 1)     # spark_df.where(df['col_name'] > 1)
pandas_df[pandas_df['col_name'] > 1]
pandas_df_new = pandas_df[pandas_df["code"].apply(lambda x: len(x) == 11)]


# 去重
spark_df.select('col_name').distinct()
spark_df_filter = spark_df.drop_duplicates(["col_name"])
pandas_df.drop_duplicates(["col_name"], keep='first', inplace=True)

# 缺失数据处理
spark_df.na.fill()
spark_df.na.drop(subset=['A', "B"])  # 同dropna
pandas_df.fillna()
pandas_df.dropna(subset=['A', "B"], how="any", inplace=True)

# 空值过滤 filter=choose
spark_df.filter(~(F.isnull(spark_df.d)))
spark_df.filter(~(spark_df['A'].isNull() | spark_df['B'].isNull()))   # 选出列值不为空的行  isnan()=isNull()<->isNOtnan()
pandas_df[pandas_df['A'].isna()]  # 选出列值为空的行
pandas_df[pandas_df['A'].notna()] # 选出列值不为空的行


# 统计
spark/pandas_df.count()  # spark返回总行数,pandas返回列非空总数
spark/pandas_df.describe() # 描述列的count, mean, min, max...

# 计算某一列均值
average_value = spark_df.select("col_name").agg({"col_name": "avg"}).collect()[0][0]
average_value = pandas_df["col_name"].mean()


# 表合并
# 按行合并,相当于追加
spark_df = spark_df.unionAll(spark_df1)
pandas_df = pd.concat([df_up, df_down], axis=0)
# 按列合并
spark_df = spark_df.join(df1, df1.id==spark_df.id, 'inner').drop(df1.id)  # df1.id==spark_df.id也可写成['id](当且仅当列名相同)
pd.merge(df_left, df_right, left_on="a", right_on="b", how="left|right|inner|outer")  


# 聚合函数
spark_df_collect = spark_df.groupBy('number').agg(
    F.collect_set('province').alias('set_province'),
    F.first('city').alias('set_city'),
    F.collect_list('district').alias('set_district'),
    F.max('report_user').alias('set_report_user'),
    F.min('first_type').alias('set_first_type'))
# 分组聚合
spark_df.groupBy('A').agg(F.avg('B'), F.min('B'))
spark/pandas_df.groupby('A').avg('B')

# 根据函数分组聚合
def func(x):
    return pd.DataFrame({
        "A": x["A"].tolist()[0],
        "B": sum(x["B"])}, index=[0])
pandas_df_result = pandas_df.groupby(["A"]).apply(func)


# spark udf函数和pandas apply函数
def func1(a, b):
    return a + b
spark_df.withColumn("col_name", F.udf(func1, IntegerType())(spark_df.a, spark_df.b))  # spark_df['a']或F.col("a")))
def func2(x,y):
    return 1 if x > np.mean(y) else 0
pandas_df['A'].apply(func2, args=(pandas_df['B'],))
pandas_df['C'] = pandas_df.apply(lambda x: 1 if x['A'] > (x['B']*0.5) else 0, axis=1)


# spark创建临时表
spark_df.createOrReplaceTempView('tmp_table')  # 用sql API
res1 = spark.sql('select * from tmp_table')
spark_df.registerTempTable('tmp_table') # 用dataframe API
res2 = spark.table('tmp_table') 

其他常用设置

class SparkUtils:
    def __init__(self):
        self.spark = None

    def get_spark(self):
        if self.spark is None:
            self.spark = SparkSession.builder.appName("username") \
                .enableHiveSupport().config("spark.sql.shuffle.partitions", "500") \
                .config("spark.sql.broadcastTimeout", "3600") \
                .config("spark.driver.memory", "200g") \
                .config("spark.executor.memory", "40g") \
                .config("spark.yarn.appMasterEnv.yarn.nodemanager.container-executor.class", "DockerLinuxContainer") \
                .config("spark.executorEnv.yarn.nodemanager.container-executor.class", "DockerLinuxContainer") \
                .config("spark.yarn.appMasterEnv.yarn.nodemanager.docker-container-executor.image-name",
                        "bdp-docker.jd.com:5000/wise_mart_bag:latest") \
                .config("spark.executorEnv.yarn.nodemanager.docker-container-executor.image-name",
                        "bdp-docker.jd.com:5000/wise_mart_bag:latest") \
                .getOrCreate()
        self.spark.sql('SET hive.exec.dynamic.partition=true')
        self.spark.sql('SET hive.exec.dynamic.partition.mode=nonstrict')
        return self.spark

spark = SparkUtils()

# 生成dataframe
spark_data = spark.sql("""
    select 
      id, 
      username
    from 
      tab1
    where 
      status in (1, 2, 3)
      and dt = '{}'
  """.format(date))

# pandas常用显示设置
pd.set_option('display.max_rows', 100)
pd.set_option('display.max_columns', None)
pd.set_option('display.width',1000)
pd.set_option('display.max_colwidth',1000)
  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: Pyspark是一种基于Python的大数据处理框架,而Pandas是一个非常强大的数据分析工具,可以方便地进行数据处理和分析。在必要的时候,我们可能需要将Pyspark的数据转换为Pandas的数据结构。 要将Pyspark的数据转换为Pandas的数据结构,我们可以按照以下步骤进行操作: 1. 从Pyspark创建一个Spark DataFrame,这是Pyspark中的主要数据结构。 2. 使用Pyspark的`toPandas()`函数将Spark DataFrame转换为Pandas DataFrame。这个函数将Spark DataFrame的所有数据加载到内存中,并创建一个Pandas DataFrame,可以在本地机器上使用。 3. 现在,我们可以使用Pandas提供的各种功能在Pandas DataFrame上进行数据处理和分析。 下面是一个示例代码,演示了如何使用Pyspark将数据转换为Pandas: ```python from pyspark.sql import SparkSession # 创建一个SparkSession spark = SparkSession.builder.getOrCreate() # 从文件加载数据并创建一个Spark DataFrame df_spark = spark.read.csv('data.csv', header=True, inferSchema=True) # 将Spark DataFrame转换为Pandas DataFrame df_pandas = df_spark.toPandas() # 使用Pandas进行数据处理和分析 # 例如,计算平均值 mean = df_pandas['column_name'].mean() ``` 需要注意的是,将Pyspark数据转换为Pandas数据会将所有数据加载到内存中,所以在处理大数据集时需要谨慎使用,以防止内存不足的问题。另外,由于Pandas是单机工具,无法利用分布式计算的优势,可能会导致性能下降。因此,在处理大数据时,尽量使用Pyspark的功能,避免转换为Pandas数据。 ### 回答2: 要将PySpark DataFrame转换为Pandas DataFrame,可以使用`toPandas()`方法。 PySpark是Apache Spark的Python API,而Pandas是一个用于数据处理和分析的Python库。虽然PySpark提供了分布式数据处理的能力,但有时需要使用Pandas来进行更灵活和高效的数据操作。 要执行转换,首先需要创建一个PySpark DataFrame对象,可以从文件、数据库、RDD等数据源加载数据。然后,通过调用`toPandas()`方法,PySpark DataFrame将被转换为Pandas DataFrame。转换后的Pandas DataFrame可以进行各种数据操作和分析,例如计算、过滤、聚合等。 以下是将PySpark DataFrame转换为Pandas DataFrame的一个示例: ```python from pyspark.sql import SparkSession # 创建SparkSession对象 spark = SparkSession.builder.getOrCreate() # 从文件加载数据,创建PySpark DataFrame df = spark.read.csv('data.csv', header=True) # 将PySpark DataFrame转换为Pandas DataFrame pandas_df = df.toPandas() # 可以对Pandas DataFrame进行各种数据操作和分析 # 例如打印前几行数据 print(pandas_df.head()) ``` 需要注意的是,转换为Pandas DataFrame会将所有数据加载到内存中,因此,当数据量很大时,可能会导致内存不足的问题。 ### 回答3: Pyspark是一个用于大规模数据处理Python库,而Pandas则是用于数据分析和数据操作的另一个流行的Python库。有时候,我们可能需要将Pyspark中的数据转换为Pandas来进行进一步的分析。 要将Pyspark DataFrame转换为Pandas DataFrame,我们可以使用`toPandas()`方法。这个方法会将整个数据集加载到内存中,并且返回一个Pandas DataFrame对象。 首先,我们需要先创建一个Pyspark DataFrame对象,可以通过读取文件、数据库查询等方式来获得数据。接下来,我们可以使用`toPandas()`方法将这个DataFrame转换为Pandas DataFrame。 示例代码如下: ```python # 导入相关库 from pyspark.sql import SparkSession # 创建SparkSession对象 spark = SparkSession.builder.appName("Pyspark to Pandas").getOrCreate() # 创建Pyspark DataFrame对象 df = spark.read.format("csv").option("header", "true").load("data.csv") # 将Pyspark DataFrame转换为Pandas DataFrame pandas_df = df.toPandas() # 打印Pandas DataFrame的前5行 print(pandas_df.head(5)) ``` 在上面的示例中,我们首先创建了一个SparkSession对象,然后使用`spark.read.format("csv").option("header", "true").load("data.csv")`的方式读取了一个CSV文件,并将其创建为Pyspark DataFrame对象`df`。接下来,我们使用`df.toPandas()`将其转换为Pandas DataFrame对象`pandas_df`。最后,我们打印了Pandas DataFrame的前5行。 需要注意的是,将大量数据加载到内存中可能会导致内存不足的问题,因此在转换之前要确保数据量适中。另外,在使用Pandas进行数据分析时,可能会受限于单台机器的内存容量。因此,如果数据量非常大,可能需要考虑分布式计算框架,如Pyspark,来处理和分析数据。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值