bigdata
文章平均质量分 65
大数据相关
little_miya
这个作者很懒,什么都没留下…
展开
-
spark[4]:工作流程
一、workflow sequence比如如下的一段代码在spark中的具体执行过程:这段代码将会在生成两个具体的jobs:read the parquet fileperforms the action to collection the computations to send to the driver.job2 有两个stages, 因为存在shuffle(grouping data by country)首先,应用(application)创建Job, 在stage中将任务分解原创 2022-01-11 12:42:20 · 304 阅读 · 0 评论 -
Spark[3]:handoop生态与Spark架构启动等相关概念
一、一些spark 相关概念spark主要两个部分:驱动程序: 单进程,给cluster分配工作执行器:多进程,平行处理cluster的工作Driver是公司的CEO,Cluster是部门负责人,executor是打工仔。SparkContext就是用来帮助driver将任务分解,发布给Cluster。cluster manager有如下几种:Spark StandaloneApache Hadoop YARNApache MesosKubernetes二、关于partiti原创 2022-01-11 12:01:56 · 2200 阅读 · 0 评论 -
Spark[1]:基本概念与python接口使用
一、目标list创建SparkContext与SparkSession创建RDDDataframes 和 SparkSQL的使用预备工作import findsparkfindspark.init()# PySpark is the Spark API for Python. In this lab, we use PySpark to initialize the spark context. from pyspark import SparkContext, SparkConffr原创 2022-01-08 23:39:47 · 1114 阅读 · 0 评论 -
spark[2]: 关于partition的相关操作(帮助理解RDD)
准备工作# PySpark is the Spark API for Python. we use PySpark to initialize the spark context. from pyspark import SparkContext, SparkConffrom pyspark.sql import SparkSession# Creating a spark context class# sc = SparkContext()# Creating a spark sessio原创 2022-01-10 23:56:11 · 1026 阅读 · 0 评论