大数据系列
文章平均质量分 94
solihawk
这个作者很懒,什么都没留下…
展开
-
分布式计算框架Flink核心基石介绍
Flink作为主流的分布式计算框架,满足批流一体、高吞吐低时延、大规模复杂计算、高可靠的容错和多平台部署能力。前文中介绍了Flink的数据流处理流程以及基本部署架构和概念,本文将对Flink中的核心基石进行深入介绍原创 2022-09-07 18:58:03 · 1128 阅读 · 0 评论 -
分布式系列之分布式实时计算系统Storm解析
Storm作为分布式实时计算框架,已广泛使用多年,形成成熟的大数据分析和实时计算平台体系。本文简要介绍Storm的架构和一些概念如Topology、Spout和Bolt,以作了解。原创 2022-08-16 08:40:53 · 1954 阅读 · 0 评论 -
大数据系列之日志数据实时分析计算
日志数据实时分析计算基于Spark Streaming和Kafka实现,本文主要介绍其中采集模块、数据清洗模块、指标计算模块、数据存储模块。原创 2021-07-05 21:18:34 · 3040 阅读 · 6 评论 -
大数据系列之Spark Streaming和Structured Streaming对比
本文对Spark Streaming和Structured Streaming在流模型、API使用、时延性能以及和Kafka对接等方面进行了对比原创 2021-05-10 19:47:24 · 3889 阅读 · 0 评论 -
大数据系列之Spark Streaming接入Kafka数据
Spark Streaming官方提供Receiver-based和Direct Approach两种方法接入Kafka数据,本文简单介绍两种方式的pyspark实现。原创 2021-05-07 09:00:26 · 1754 阅读 · 0 评论 -
大数据系列之Spark Streaming
Spark Streaming是构建在Spark上的实时流计算框架,可以进行实时流数据处理。本文简要介绍了Spark Streaming的基本概念和基本算子的使用。原创 2021-05-05 09:48:23 · 4924 阅读 · 0 评论 -
大数据系列之HBASE集群环境搭建
HBase是一个构建在HDFS上的分布式列存储系统,本文简要介绍了HBASE的设计模式和存储模式,并部署HBASE集群环境。原创 2021-04-29 18:49:28 · 524 阅读 · 0 评论 -
大数据系列之Spark和MongoDB集成
在Spark生态系统中,HDFS作为存储可以使用MongoDB来替代,构建成Spark+MongoDB生态系统。MongoDB作为文档存储型数据库,支持HDFS没有的索引概念,响应时间为毫秒级别,同时可以利用强大的aggregate函数做数据的筛选和预处理。原创 2021-04-28 12:33:45 · 2209 阅读 · 0 评论 -
大数据系列之PySpark读写外部数据库MySQL
本文主要介绍Spark通过PyMySQL和API算子对外部数据库MySQL和HBASE的读写操作原创 2021-04-26 13:59:19 · 2058 阅读 · 0 评论 -
大数据系列之Spark SQL、DataFrame和RDD数据统计与可视化
Spark大数据分析中涉及到RDD、Data Frame和SparkSQL的操作,本文简要介绍三种方式在数据统计中的算子使用。原创 2021-04-23 12:29:33 · 3007 阅读 · 1 评论 -
大数据系列之PySpark配置及RDD操作
PySpark实现了Spark对于Python的API,本文简要介绍了PySpark的配置,以及通过PySpark对RDD进行Transform和Action操作。原创 2021-04-22 19:52:08 · 959 阅读 · 0 评论 -
大数据系列之Spark集群环境部署
Spark作为一种大数据分布式计算框架,已经构建Spark Streaming、Spark SQL、Spark ML等组件,与文件系统HDFS、资源调度YARN一起,构建了Spark生态体系。原创 2021-04-22 08:56:29 · 621 阅读 · 0 评论 -
大数据系列之Kafka集群环境部署
本文简要介绍Kafka基本概念、Kafka集群架构和Topic设计以及Kafka集群环境的配置部署,并且测试生产端和消费端的消息处理,加强对Kafka消息队列设计理念的理解。原创 2021-04-20 12:29:01 · 562 阅读 · 0 评论 -
大数据系列之ELK集群环境部署
本文主要介绍ELK相关组件的环境部署和配置,并以系统syslog作为源数据输入测试验证elasticsearch端数据接收和Kibana端数据展示。原创 2021-04-19 11:40:11 · 882 阅读 · 0 评论