spark
文章平均质量分 62
大兰子小丸子
向优秀而努力的人看齐。
未来将专注于Hive数仓搭建、MySQL数据分析、Python开发、Airflow任务管理 这四方面的学习,也会不定期写博客记录成长~
展开
-
pyspark之创建SparkSession
1、SparkSession 介绍通过SparkSession 可以创建DataFrame, 也可以把DataFrame注册成一个table,基于此执行一系列SQL操作。DataFrame和pandas里的DataFrame类似。关于什么是DataFrame,后续会出一篇介绍spark基本概念的博客。2、实验环境博主是用的 jupyter notebook,新建了一个pyspark的not...原创 2018-12-12 18:58:46 · 24379 阅读 · 5 评论 -
pyspark 注册计算星座的UDF
不怎么重要的前言:接触hive时经常听到人们说UDF(User Defined Function),博主从来没用过,听得云里雾里,不知道怎么才能写UDF。后来听说,首先我们要写个UDF,然后打包,再在hive里注册一下才能使用。最近在学spark,学到了UDF的一点东西,于是拿来练练手,也就有了此文。切入正题,本文实践的是注册一个计算星座的UDF,从hive取数据,计算星座后存入hive。(...原创 2018-12-12 23:11:56 · 888 阅读 · 0 评论