2.Spark环境测试

波仔不百度

于 2022-12-20 14:18:47 发布

阅读量431

点赞数

分类专栏： spark 文章标签： spark 大数据 python

本文链接：https://blog.csdn.net/qq_39502419/article/details/128384210

版权

spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

#!/usr/bin/env python
# coding: utf-8

# In[1]:


from pyspark.sql import SparkSession
import findspark
findspark.init()


# In[3]:


# 以本地模式开始spark
# local本地模式
# [*] 最大的线程数量
# [4] 线程数量设置为4
spark = SparkSession.Builder().master("local[*]").getOrCreate()
spark


# In[8]:


# 创建spark的dataframe
df = spark.createDataFrame(
    data=[
        ['py','analysis'],
        ['spakr','bigdata']
    ],
    schema=('name','type')
)
df.show()
# 关闭sparksession
# spark.stop()


# In[9]:


# 创建pandas的dataframe
import pandas as pd
import numpy as np


# In[10]:


pd_df = pd.DataFrame(np.random.rand(100,3))
pd_df.head(10)


# In[11]:


# 从pnadas的dataframe创建的spark的Dataframe
spark_df = spark.createDataFrame(pd_df)
spark_df.show(10)


# In[12]:


# 将spark的Dataframe转换为pnadas的dataframe
pd_df = spark_df.select("*").toPandas()
pd_df.head(10)


# In[ ]: