spark
静远小和尚
这个作者很懒,什么都没留下…
展开
-
Flink原理——任务调度原理
原文链接:https://mp.toutiao.com/profile_v4/graphic/preview?pgc_id=6857894528381092364本文主要从以下几个方面介绍Flink的任务调度原理一、Flink运行时的组件二、TaskManger与Slots三、程序与数据流四、Flink的执行图五、Flink程序执行的并行度六、Flink程序任务链一、Flink运行时的组件Flink的运行组件Flink 运行时架构主要包括四个不同的组件,它们会在运原创 2020-08-06 23:36:31 · 2652 阅读 · 0 评论 -
SparkStreaming读取Kafka的两种方式
原文链接:https://mp.toutiao.com/profile_v4/graphic/preview?pgc_id=6855283208414560780本文主要从以下几个方面介绍SparkStreaming读取Kafka的两种方式:一、SparkStreaming简介二、Kafka简介三、Redis简介(可用于保存历史数据或偏移量数据)四、SparkStreaming读取Kafka数据的两种方式五、演示Demo一、SparkStreaming简介可以参考这篇文章:S原创 2020-07-30 22:44:22 · 2130 阅读 · 0 评论 -
SparkStreaming 详解
原文链接:https://www.toutiao.com/i6854493461903901197/本文主要从以下几个方面介绍SparkStreaming:一、SparkStreaming是什么二、SparkStreaming支持的业务场景三、SparkStreaming的相关概念四、DStream介绍五、SparkStreaming的机制六、SparkStreaming的Demo一、SparkStreaming是什么在讲sparkStreaming是什么之前首先讲一下为原创 2020-07-28 19:42:14 · 1748 阅读 · 0 评论 -
Spark——DataFrame 读写和保存数据
原文链接:https://mp.toutiao.com/profile_v3/graphic/preview?pgc_id=6849695183043297804本文主要从以下几个方面介绍Spark中的DataFrame读写和保存第一,DataFrame的介绍第二,Spark所支持的读写文件格式及示例第一,DataFrame的介绍DataFrame的前身是SchemaRDD,从Spark 1.3.0开始SchemaRDD更名为DataFrame。与SchemaRDD的主要区别是:Data原创 2020-07-15 21:26:58 · 5726 阅读 · 0 评论 -
SparkSQL——自定义UDF函数
原文链接:https://www.toutiao.com/i6849246325343683083/从Spark2.0以上的版本开始,spark是使用全新的SparkSession接口代替Spark1.6中的SQLcontext和HiveContext来实现对数据的加载、转换、处理等工作,并且实现了SQLcontext和HiveContext的所有功能。我们在新版本中并不需要之前那么繁琐的创建很多对象,只需要创建一个SparkSession对象即可。SparkSession支持从不同的数据源原创 2020-07-14 16:29:07 · 2032 阅读 · 0 评论 -
SparkSQL——DataFrame的创建与使用
原文地址:https://www.toutiao.com/i6848607197815898628/本文主要从以下几个方面介绍SparkSQL中的DataFrame:第一,SparkSQL的作用第二,什么是DataFrame第三,DataFrame与RDD的区别第四,DataFrame的创建与使用 (Spark1.x与Spark2.x两种不同版本)第一,SparkSQL的作用SparkSQL是spark处理结构化数据的一个模块,它的前身是shark,与基础的spark RDD不同原创 2020-07-12 23:02:59 · 1305 阅读 · 0 评论 -
Spark-实现自定义排序的六种方法(Scala版本)
原文链接:https://www.toutiao.com/i6845585556722680328/在实际开发中经常需要对数据进行排序统计,Spark的sortBy以及SortByKEy算子并不能完全适用开发场景,需要我们自定义排序规则,例如如下数据:Array("张三 16 98.3", "李四 14 98.3", "王五 34 100.0", "赵六 26 98.2", "田七 18 98.2")包含三个字段的学生数据,(姓名,年龄,成绩),我们需要按照成绩进行降序排序,成绩相同的按照年龄原创 2020-07-04 19:46:02 · 1928 阅读 · 0 评论 -
Spark 实现分组topn排序 (scala版本)
四种方法实现分组排序数据集格式:http://bigdata.edu360.cn/laoduanhttp://bigdata.edu360.cn/laoduanhttp://javaee.edu360.cn/xiaoxuhttp://javaee.edu360.cn/xiaoxuhttp://javaee.edu360.cn/laoyanghttp://javaee.edu360.cn/laoyanghttp://javaee.edu360.cn/laoyang按照每个学科求老师访原创 2020-06-30 19:10:14 · 1169 阅读 · 0 评论