【Spark】
文章平均质量分 85
spark相关学习使用记录
小哲嗨数
这个作者很懒,什么都没留下…
展开
-
SparkSQL | 表生成函数
lateral view与 explode函数按理说是不应该在数据库里存在的,因为他违背了第一范式(每个属性不可再分)。但是实际的场景,如一些大数据场景还是会存在将一些低频使用但又不能丢失的数据存成json,这种场景下就需要解析json,将里面的数组和多key值展开。初始化一份数据# 随意造的一份数据,毫无意义data = [ { "id": 1, "...原创 2020-04-06 17:13:32 · 727 阅读 · 0 评论 -
SparkSQL | 窗口函数
import pandas as pdfrom pyspark.sql import SparkSessionfrom pyspark.conf import SparkConffrom pyspark.sql.types import *from pyspark.sql import functions as F, Window# 配置集群config = SparkConf()...原创 2020-03-01 13:29:34 · 4065 阅读 · 0 评论 -
SparkSQL | 行转列与列转行
df = spark.createDataFrame([ {'id': 1, u'姓名': u'张三', u'分数': 88, u'科目': u'数学'}, {'id': 2, u'姓名': u'李雷', u'分数': 67, u'科目': u'数学'}, {'id': 3, u'姓名': u'宫九', u'分数': 77, u'科目': u'数学'}, {'id'...原创 2020-02-22 19:47:08 · 5417 阅读 · 0 评论 -
pyspark | 数据处理基本操作
import pandas as pdfrom pyspark.sql import SparkSessionfrom pyspark.conf import SparkConffrom pyspark.sql.types import *from pyspark.sql import functions as F, Window初始化与配置环境# 配置集群config = Spa...原创 2020-02-29 21:21:08 · 897 阅读 · 0 评论