![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
Ning_wxh
GoGoGo!!!!
展开
-
Kafka 学习笔记
一. Kafka 入门1. 介绍Kafka是由Apache开发的一个开源流处理平台,由Scala和Java编写。目标是为处理实时数据提供一个统一、高吞吐、低延迟的平台。其持久化层本质上是一个“按照分布式事务日志架构的大规模发布/订阅消息队列”, 这使它作为企业级基础设施来处理流式数据非常有价值。(维基百科)2. kafka特性高吞吐量,低延迟: 每个topic可以拥有多个partiti...原创 2020-03-03 11:17:17 · 159 阅读 · 0 评论 -
spark 学习笔记
spark SQL 学习笔记spark介绍Spark是是一种快速通用的集群计算系统,它的主要特点是能够在内存中进行计算。它包含了 spark 核心组件 spark-core,用于 SQL 和结构化处理数据的 sparkSQL,流式计算 spark Stream,机器学习库 MLlib,和图形计算 GraphX。并且 spark 还提供了丰富的API,如 Java,Scala, Python,...原创 2019-03-23 12:36:50 · 350 阅读 · 0 评论 -
spark SQL 笔记
spark SQL 笔记(2.4.0版本)spark 的创建spark 所有的功能切入点都在 sparkSession 。所有开始我们应该导入类并创建sparkSession 类。import org.apache.spark.sql.SparkSessionval spark = SparkSession .builder() .appName("Spark SQL basi...原创 2019-03-24 13:29:30 · 280 阅读 · 0 评论 -
spark Streaming 学习笔记
spark Streaming 介绍spark Streaming 是 spark 核心 API 的扩展之一。用于实现实时数据流的可扩展,高吞吐量,容错流处理。数据的输入和数据的输出具体如下图:sparkStreaming 可进行复杂的运算,如 map, reduce, join, window 等。处理后的数据可流向文件系统(HDFS),数据库(Databases),实时仪器表(Bash...原创 2019-03-28 20:54:10 · 219 阅读 · 0 评论