![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 79
兴兴侠
即使步伐缓慢,也要勇敢前行
展开
-
SparkStreaming累加器单词计算
SparkStreaming累加器单词计算 快传门SparkStreaming累加器单词计算一、需求分析二、实验环境1.工具2.依赖三、思路分析**1..思路分析**2.流程分析图四、编程实现 一、需求分析 在服务器端不断产生数据的时候,sparkstreaming客户端需要不断统计服务器端产生的相同数据出现的总数,即累计服务器端产生的相同数据的出现的次数。 二、实验环境 1.工具 centos7 + hadoop2.7.3 + nc + spark2.4.8 + idea 2.依赖 在idea项目原创 2021-11-25 23:14:12 · 383 阅读 · 0 评论 -
SparkStreaming读取Kafka数据源并写入Mysql数据库
SparkStreaming读取Kafka数据源并写入Mysql数据库 一、实验环境 本实验所用到的工具有 kafka_2.11-0.11.0.2; zookeeper-3.4.5; spark-2.4.8; Idea; MySQL5.7 什么是zookeeper? zookeeper 主要是服务于分布式服务,可以用zookeeper来做:统一配置管理,统一命名服务,分布式锁,集群管理。使用分布式系统就无法避免对节点管理的问题(需要是实时感知节点的状态,对接点进行统一管理等等),而由于这些问题处理起来原创 2021-11-24 13:17:14 · 5536 阅读 · 0 评论 -
Spark RDD的属性
Spark中的RDD的属性 说明:本片文章内容参考于微信公众号“大数据私房菜”里的内容,里面大量的与大数据有关的优质内容。在这里一是给大家分享,二是让自己巩固知识。 ???? 一组分片(Partition),即数据集的基本组成单位。 对于RDD来说,每个分片都会被一个计算机任务处理,并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数,若干个没有指定,那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。 ???? 一个计算每个分区的函数。 Spark中RDD的计算是以分片为单位的原创 2021-11-23 01:11:55 · 181 阅读 · 2 评论