![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
人海中的回忆
这个作者很懒,什么都没留下…
展开
-
SparkSQL基本教程(二)
1 数据清洗案例 学习目标: 数据去重 缺失值处理 异常值处理 学习内容: 前面我们处理的数据实际上都是已经被处理好的规整数据,但是在大数据整个生产过程中,需要先对数据进行数据清洗,将杂乱无章的数据整理为符合后面处理要求的规整数据。 1数据去重 ''' 1.删除重复数据 groupby().count():可以看到数据的重复情况 ''' df = spark.createDataFrame([ (1, 144.5, 5.9, 33, 'M'), (2, 167.2, 5.4, 45, 'M'原创 2021-04-11 23:22:41 · 226 阅读 · 0 评论 -
SparkSQL基本教程(一)
1 JSON数据的处理 学习目标 了解Spark SQL处理JSON数据方式 应用Spark SQL实现处理JSON数据案例 1 Spark SQL 处理JSON数据介绍 Spark SQL能够自动将JSON数据集以结构化的形式加载为一个DataFrame 加载JSON数据时如何处理DataFrame的schema 1,通过反射自动推断,适合静态数据 2,程序指定,适合程序运行中动态生成的数据 加载json数据相关API介绍 #使用内部的schema jsonDF = spark.read.原创 2021-04-11 23:17:27 · 137 阅读 · 0 评论 -
Spark DataFrame API练习与功能介绍
1 DataFrame API练习 基于RDD创建 from pyspark.sql import SparkSession from pyspark.sql import Row spark = SparkSession.builder.appName('test').getOrCreate() sc = spark.sparkContext # spark.conf.set("spark.sql.shuffle.partitions", 6) # ================直接创建=======原创 2021-04-07 00:13:54 · 210 阅读 · 0 评论 -
SparkDataFrame简单介绍带你轻松入门
1 SparkDataFrame 1 DataFrame简介 在Spark语义中,DataFrame是一个分布式的行集合,可以想象为一个关系型数据库的表,或者一个带有列名的Excel表格。它和RDD一样,有这样一些特点: Immuatable:一旦RDD、DataFrame被创建,就不能更改,只能通过transformation生成新的RDD、DataFrame Lazy Evaluations:只有action才会触发Transformation的执行 Distributed:DataFrame和RDD原创 2021-04-07 00:04:56 · 839 阅读 · 0 评论 -
Pyspark实战与广播变量broadcast的应用
1 Spark-core案例 IP统计 学习目标 应用RDD实现ip地址查询案例 记忆广播变量的概念 1 通过RDD实现ip地址查询 需求 在互联网中,我们经常会见到城市热点图这样的报表数据,例如在百度统计中,会统计今年的热门旅游城市、热门报考学校等,会将这样的信息显示在热点图中。 因此,我们需要通过日志信息(运行商或者网站自己生成)和城市ip段信息来判断用户的ip段,统计热点经纬度。 ip日志信息 在ip日志信息中,我们只需要关心ip这一个维度就可以了,其他的不做介绍 思路 1、 加载原创 2021-04-06 23:50:50 · 3844 阅读 · 0 评论 -
超好用的Pysapark的PV,UV,TopN指标计算!
1.spark-core 案例_点击日志分析 学习目标: 应用Pycharm编写代码实现Word Count案例 应用Spark RDD 实现点击日志分析案例 1 Pycharm 编写Spark WordCount案例 from pyspark.sql import SparkSession if __name__ == '__main__': spark = SparkSession.build.appName("wc").getOrCreate() sc = spark.spark原创 2021-04-05 18:41:38 · 328 阅读 · 6 评论 -
Spark小白教程(三)
1 RDD常用算子练习 学习目标 记忆RDD的三类算子 应用transformation算子进行数据处理 应用action算子进行数据处理原创 2021-04-01 22:39:03 · 96 阅读 · 0 评论 -
Spark小白教程(二)
1 RDD概述 学习目标: 1.了解RDD的概念 2.应用Spark Core Api实现RDD的创建原创 2021-04-01 22:29:58 · 89 阅读 · 0 评论