Spark
文章平均质量分 94
向、向向日葵
这个作者很懒,什么都没留下…
展开
-
Spark 之 SparkSQL
SparkSQL前言Spark 知识系列文章一、SparkSQL 概述1.1 DataFrame1.2 DataSet1.3 RDD、DataFrame和DataSet三者的关系二、SparkSQL的编程2.1 DataFrame2.1.1 通过Spark的数据源进行创建2.1.2 RDD转换为DataFrame2.1.2.1 手动转换2.1.2.2 通过样例类2.1.3 将DataFrame转化为RDD2.2 DataSet2.2.1 通过样例类创建2.2.2 RDD转换为DataSet2.2.3 Dat原创 2021-12-02 23:26:25 · 1016 阅读 · 0 评论 -
Spark 之Spark三大数据结构
Spark前言Spark 知识系列文章一、RDD弹性分布式数据集1.1 RDD定义以及框架1.2 特点1.3 创建RDD1.4 算子1.5 RDD依赖关系1.5.1 窄依赖1.5.2 宽依赖1.6 RDD任务划分1.7 RDD数据分区器1.7.1 Hash分区1.7.2 Ranger分区(很少使用)二、 累加器2.1 运用累加器求数据之和三、 广播变量:分布式只读共享变量 - 调优策略总结前言本文介绍有关Spark的三大数据结构:RDD、广播变量、累加器。Spark 知识系列文章 此处罗原创 2021-12-02 23:25:50 · 1783 阅读 · 1 评论 -
Spark 之 RDD转换算子
RDD转换算子前言Spark 知识系列文章一、RDD的转换算子1.1 Value类型1.1.1 map(func)案例1.1.2 mapPartitions(func) 案例1.1.3 Map 和 MapPartition的区别1.1.4 flatMap(func) 案例1.1.5 glom案例1.1.6 groupBy(func)案例1.1.7 sample(withReplacement, fraction, seed) 案例1.1.8 distinct([numTasks])) 案例1.1.9 coa原创 2021-12-02 23:25:33 · 744 阅读 · 0 评论 -
Spark 之 RDD行动算子
RDD行动算子前言Spark 知识系列文章一、 RDD行动算子1.1 reduce(func)案例1.2 collect()案例1.3 count()案例1.4 first()案例1.5 take(n)案例1.6 takeOrdered(n)案例1.7 aggregate案例1.8 fold(num)(func)案例1.9 saveAsTextFile(path)1.10 saveAsSequenceFile(path)1.11 saveAsObjectFile(path)1.12 countByKey(原创 2021-12-02 23:25:15 · 1553 阅读 · 0 评论 -
Spark 之 Spark框架及部署
Spark(一)前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimp原创 2021-12-02 23:24:57 · 948 阅读 · 0 评论 -
Spark 之 SparkStreaming
SparkStreaming前言Spark 知识系列文章一、Spark Streaming1.1 Spark Streaming 架构1.2 DStream 入门案例(Wordcount)1.3 Dstream转换二、窗口函数总结前言本文介绍了有关SparkStreaming的相关知识,包括SparkStreaming架构、SparkStreaming实现WordCount案例、窗口函数等。Spark 知识系列文章 此处罗列了有关Spark相关知识的其他文章,有需要的可以进行点击查阅。原创 2021-12-02 23:24:33 · 965 阅读 · 0 评论