最近脑子不知道咋想的,想学习spark. spark 是啥?我其实也不能说个一二三四五六,瞎子过河走一步算一步。我是写python的,顺理成章,我学习的是跟python相关的spark-pyspark,废话有点多,那我们正式开始第一天你的学习任务-创建dataFrame数据;我简单的总结了一下主要有RDD, Row, JSON, CSV, Pandas等几种方式创建:
# -*- coding:utf-8 -*-
from pyspark.sql import SparkSession
from pyspark.sql import Row
from pyspark.sql.types import *
import pandas as pd
def rdd_create_dataframe(spark):
head = ['seq', 'cerate_time', 'status', 'Q1']
data = [
(1, '2019-11-16', 1, 'A1'),
(2, '2019-11-16', 1, 'A2'),
(3, '2019-11-16', 1, 'A4'),
(4, '2019-11-16', 1, 'A3')
]
rdd = spark.sparkContext.parallelize(data)
spark.createDataFrame(rdd, head).show()
def row_create_dataframe(spark):
head = ['seq', 'cerate_time', 'status', 'Q1']
d