spark
文章平均质量分 94
solihawk
这个作者很懒,什么都没留下…
展开
-
分布式系列之分布式分析计算引擎Spark解析
Spark作为一种通用的大数据分析引擎,集成了批处理、流式查询以及交互式查询于一体,其技术体系相当复杂,本文简要介绍了Spark中的基本架构和基本概念RDD和执行流程,以及Spark on YARN两种模式。...原创 2022-08-04 19:17:08 · 2182 阅读 · 2 评论 -
大数据系列之日志数据实时分析计算
日志数据实时分析计算基于Spark Streaming和Kafka实现,本文主要介绍其中采集模块、数据清洗模块、指标计算模块、数据存储模块。原创 2021-07-05 21:18:34 · 3040 阅读 · 6 评论 -
大数据系列之Spark Streaming和Structured Streaming对比
本文对Spark Streaming和Structured Streaming在流模型、API使用、时延性能以及和Kafka对接等方面进行了对比原创 2021-05-10 19:47:24 · 3890 阅读 · 0 评论 -
大数据系列之Spark Streaming接入Kafka数据
Spark Streaming官方提供Receiver-based和Direct Approach两种方法接入Kafka数据,本文简单介绍两种方式的pyspark实现。原创 2021-05-07 09:00:26 · 1754 阅读 · 0 评论 -
大数据系列之Spark Streaming
Spark Streaming是构建在Spark上的实时流计算框架,可以进行实时流数据处理。本文简要介绍了Spark Streaming的基本概念和基本算子的使用。原创 2021-05-05 09:48:23 · 4924 阅读 · 0 评论 -
大数据系列之Spark和MongoDB集成
在Spark生态系统中,HDFS作为存储可以使用MongoDB来替代,构建成Spark+MongoDB生态系统。MongoDB作为文档存储型数据库,支持HDFS没有的索引概念,响应时间为毫秒级别,同时可以利用强大的aggregate函数做数据的筛选和预处理。原创 2021-04-28 12:33:45 · 2209 阅读 · 0 评论 -
大数据系列之PySpark读写外部数据库MySQL
本文主要介绍Spark通过PyMySQL和API算子对外部数据库MySQL和HBASE的读写操作原创 2021-04-26 13:59:19 · 2060 阅读 · 0 评论 -
大数据系列之Spark SQL、DataFrame和RDD数据统计与可视化
Spark大数据分析中涉及到RDD、Data Frame和SparkSQL的操作,本文简要介绍三种方式在数据统计中的算子使用。原创 2021-04-23 12:29:33 · 3008 阅读 · 1 评论 -
大数据系列之PySpark配置及RDD操作
PySpark实现了Spark对于Python的API,本文简要介绍了PySpark的配置,以及通过PySpark对RDD进行Transform和Action操作。原创 2021-04-22 19:52:08 · 959 阅读 · 0 评论 -
大数据系列之Spark集群环境部署
Spark作为一种大数据分布式计算框架,已经构建Spark Streaming、Spark SQL、Spark ML等组件,与文件系统HDFS、资源调度YARN一起,构建了Spark生态体系。原创 2021-04-22 08:56:29 · 621 阅读 · 0 评论