【Pyspark】Pyspark入门和常用知识点

PySpark官方教程:

http://spark.apache.org/docs/latest/api/python/pyspark.sql.html

 

pyspark的使用和操作(基础整理)

https://blog.csdn.net/cymy001/article/details/78483723

各种函数的例子:

https://blog.csdn.net/qq_23860475/article/details/90714117

 

spark数据类型:

https://blog.csdn.net/xuejianbest/article/details/80694073

 

 

 

 建立spark的session,需要设定工作空间名字 eg: my_ap

import os
os.environ["PYSPARK_PYTHON"] = "/usr/bin/python2.7.10"
# os.environ["PYSPARK_PYTHON"]="/usr/bin/python3.7.3"

from datetime import datetime
from datetime import timedelta

# today=datetime.today()
# cur_date=str(today)[:10]
t = datetime.now()
today = datetime.today().strftime("%Y-%m-%d")
preday = (t-timedelta(days=1)).strftime("%Y-%m-%d")

import os
import sys
spark_name=os.environ.get('SPARK_HOME')
print(spark_name)
cwd=os.getcwd()  
cwd #记录当前pyspark工作环境位置

import pandas as pd
from pyspark.sql import SparkSession
from pyspark.sql import SQLContext
from pyspark import SparkConf
import math 
# from pyspark import SparkContext
# import pdb 

spark = SparkSession.builder.appName("my_app").enableHiveSupport().getOrCreate()  # type(spark)  pyspark.sql.session.SparkSession
#type( SparkSession.builder.appName("test_ltt") )  :pyspark.sql.session.Builder
#需要的话可以通过spark session里面封装的sparkContext获取sc
#sc=spark.sparkContext  # type(sc): pyspark.context.SparkContext  

 

特别注意!!!

要使用数据了才会真正运行spark的语句

比如写了100行代码,最后没有print或者show或者保存数据或者cache等, 前面的100行程序都不会运行,只是建立好有向无环图

 

pyspark读取json文件中的内容

https://blog.csdn.net/appleyuchi/article/details/81130238

 

sparksql的agg函数

df.groupBy().agg()的简写

作用:在整体DataFrame不分组聚合

 

来自 <https://blog.csdn.net/zhuiqiuuuu/article/details/72821194>

 

Pyspark Dataframe添加新的一列

https://blog.csdn.net/sunflower_sara/article/details/104044176

 

Pyspark  .alias

实现对列重命名

 

Pyspark 一列变多列  、 分割 一行中的list分割转为多列 explode

https://blog.csdn.net/sunflower_sara/article/details/104044252

 

Pyspark  多列变一列 拼接多列

concat_ws(',',collect_list(concat(concat(concat(concat(rank,'@@'),lon),'@@'),lat))) as info

collect_list  collect_set

 

Pyspark UDF

https://mp.csdn.net/postedit/104044412

 

Pyspark 分组排序

https://mp.csdn.net/postedit/104044463

 

拼接

union all

 

排序 正序 倒序

orderby desc/asc

 

表的读写创建

https://blog.csdn.net/sunflower_sara/article/details/104044493

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值