Spark_向、向向日葵的博客-CSDN博客

Spark

关注

文章平均质量分 94

关注数：文章数：6 文章阅读量：7009 文章收藏量：9

作者: 向、向向日葵

这个作者很懒，什么都没留下…

展开

Spark 之 SparkSQL

SparkSQL前言Spark 知识系列文章一、SparkSQL 概述1.1 DataFrame1.2 DataSet1.3 RDD、DataFrame和DataSet三者的关系二、SparkSQL的编程2.1 DataFrame2.1.1 通过Spark的数据源进行创建2.1.2 RDD转换为DataFrame2.1.2.1 手动转换2.1.2.2 通过样例类2.1.3 将DataFrame转化为RDD2.2 DataSet2.2.1 通过样例类创建2.2.2 RDD转换为DataSet2.2.3 Dat

原创 2021-12-02 23:26:25 · 1016 阅读 · 0 评论
Spark 之Spark三大数据结构

Spark前言Spark 知识系列文章一、RDD弹性分布式数据集1.1 RDD定义以及框架1.2 特点1.3 创建RDD1.4 算子1.5 RDD依赖关系1.5.1 窄依赖1.5.2 宽依赖1.6 RDD任务划分1.7 RDD数据分区器1.7.1 Hash分区1.7.2 Ranger分区（很少使用）二、累加器2.1 运用累加器求数据之和三、广播变量：分布式只读共享变量 - 调优策略总结前言本文介绍有关Spark的三大数据结构：RDD、广播变量、累加器。Spark 知识系列文章此处罗

原创 2021-12-02 23:25:50 · 1783 阅读 · 1 评论
Spark 之 RDD转换算子

RDD转换算子前言Spark 知识系列文章一、RDD的转换算子1.1 Value类型1.1.1 map(func)案例1.1.2 mapPartitions(func) 案例1.1.3 Map 和 MapPartition的区别1.1.4 flatMap(func) 案例1.1.5 glom案例1.1.6 groupBy(func)案例1.1.7 sample(withReplacement, fraction, seed) 案例1.1.8 distinct([numTasks])) 案例1.1.9 coa

原创 2021-12-02 23:25:33 · 744 阅读 · 0 评论
Spark 之 RDD行动算子

RDD行动算子前言Spark 知识系列文章一、 RDD行动算子1.1 reduce(func)案例1.2 collect()案例1.3 count()案例1.4 first()案例1.5 take(n)案例1.6 takeOrdered(n)案例1.7 aggregate案例1.8 fold(num)(func)案例1.9 saveAsTextFile(path)1.10 saveAsSequenceFile(path)1.11 saveAsObjectFile(path)1.12 countByKey(

原创 2021-12-02 23:25:15 · 1553 阅读 · 0 评论
Spark 之 Spark框架及部署

Spark（一）前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：import numpy as npimp

原创 2021-12-02 23:24:57 · 948 阅读 · 0 评论
Spark 之 SparkStreaming

SparkStreaming前言Spark 知识系列文章一、Spark Streaming1.1 Spark Streaming 架构1.2 DStream 入门案例（Wordcount）1.3 Dstream转换二、窗口函数总结前言本文介绍了有关SparkStreaming的相关知识，包括SparkStreaming架构、SparkStreaming实现WordCount案例、窗口函数等。Spark 知识系列文章此处罗列了有关Spark相关知识的其他文章，有需要的可以进行点击查阅。

原创 2021-12-02 23:24:33 · 965 阅读 · 0 评论

Spark

作者: 向、向向日葵

Spark 之 SparkSQL

Spark 之Spark三大数据结构

Spark 之 RDD转换算子

Spark 之 RDD行动算子

Spark 之 Spark框架及部署

Spark 之 SparkStreaming