自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 SparkSQL基本教程(二)

1 数据清洗案例学习目标:数据去重缺失值处理异常值处理学习内容:前面我们处理的数据实际上都是已经被处理好的规整数据,但是在大数据整个生产过程中,需要先对数据进行数据清洗,将杂乱无章的数据整理为符合后面处理要求的规整数据。1数据去重'''1.删除重复数据groupby().count():可以看到数据的重复情况'''df = spark.createDataFrame([ (1, 144.5, 5.9, 33, 'M'), (2, 167.2, 5.4, 45, 'M'

2021-04-11 23:22:41 234

原创 SparkSQL基本教程(一)

1 JSON数据的处理学习目标了解Spark SQL处理JSON数据方式应用Spark SQL实现处理JSON数据案例1 Spark SQL 处理JSON数据介绍Spark SQL能够自动将JSON数据集以结构化的形式加载为一个DataFrame加载JSON数据时如何处理DataFrame的schema1,通过反射自动推断,适合静态数据2,程序指定,适合程序运行中动态生成的数据加载json数据相关API介绍#使用内部的schemajsonDF = spark.read.

2021-04-11 23:17:27 153

原创 Spark DataFrame API练习与功能介绍

1 DataFrame API练习基于RDD创建from pyspark.sql import SparkSessionfrom pyspark.sql import Rowspark = SparkSession.builder.appName('test').getOrCreate()sc = spark.sparkContext# spark.conf.set("spark.sql.shuffle.partitions", 6)# ================直接创建=======

2021-04-07 00:13:54 224

原创 SparkDataFrame简单介绍带你轻松入门

1 SparkDataFrame1 DataFrame简介在Spark语义中,DataFrame是一个分布式的行集合,可以想象为一个关系型数据库的表,或者一个带有列名的Excel表格。它和RDD一样,有这样一些特点:Immuatable:一旦RDD、DataFrame被创建,就不能更改,只能通过transformation生成新的RDD、DataFrameLazy Evaluations:只有action才会触发Transformation的执行Distributed:DataFrame和RDD

2021-04-07 00:04:56 851

原创 Pyspark实战与广播变量broadcast的应用

1 Spark-core案例 IP统计学习目标应用RDD实现ip地址查询案例记忆广播变量的概念1 通过RDD实现ip地址查询需求在互联网中,我们经常会见到城市热点图这样的报表数据,例如在百度统计中,会统计今年的热门旅游城市、热门报考学校等,会将这样的信息显示在热点图中。因此,我们需要通过日志信息(运行商或者网站自己生成)和城市ip段信息来判断用户的ip段,统计热点经纬度。ip日志信息在ip日志信息中,我们只需要关心ip这一个维度就可以了,其他的不做介绍思路1、 加载

2021-04-06 23:50:50 3889

原创 超好用的Pysapark的PV,UV,TopN指标计算!

1.spark-core 案例_点击日志分析学习目标:应用Pycharm编写代码实现Word Count案例应用Spark RDD 实现点击日志分析案例1 Pycharm 编写Spark WordCount案例from pyspark.sql import SparkSessionif __name__ == '__main__': spark = SparkSession.build.appName("wc").getOrCreate() sc = spark.spark

2021-04-05 18:41:38 385 6

原创 Spark小白教程(三)

1 RDD常用算子练习学习目标 记忆RDD的三类算子 应用transformation算子进行数据处理 应用action算子进行数据处理

2021-04-01 22:39:03 105

原创 Spark小白教程(二)

1 RDD概述学习目标:1.了解RDD的概念2.应用Spark Core Api实现RDD的创建

2021-04-01 22:29:58 92

原创 Spark小白教程(一)

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2021-04-01 22:15:11 101

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除