小鹅鹅的博客

兴趣使然的博主,鹅厂小开发

Spark Structrued Streaming 及 DStreaming 调优笔记

背景 项目中用的是Spark Structrued Streaming ,也就是Spark 2.0的新版Streaming,看官方文档也说过性能及实时性会比之前的Dstreaming好点,但是相关的资料相比Dstreaming实在是少很多,现在调优阶段很多都要参考Dstreaming的文章以及经验...

2019-05-19 16:43:38

阅读数 6

评论数 0

MongoDB 常用操作笔记 find ,count, 大于小于不等, select distinct, groupby

本博客将列举一些常用的MongoDB操作,方便平时使用时快速查询,如find, count, 大于小于不等, select distinct, groupby等 1. 大于,小于,大于或等于,小于或等于,不等于 $gt: 大于 $lt: 小于 $gte: 大于或等于 $lte: 小于或等于 $n...

2019-04-20 12:48:18

阅读数 27

评论数 0

JVM 概述,层次结构 以及 GC工作原理 笔记

1. JVM概述 Java 虚拟机 Java 虚拟机(Java virtual machine,JVM)是运行 Java 程序必不可少的机制。JVM实现了Java语言最重要的特征:即平台无关性。原理:编译后的 Java 程序指令并不直接在硬件系统的 CPU 上执行,而是由 JVM 执行。JVM屏蔽...

2019-04-20 12:47:22

阅读数 44

评论数 0

Java final, static, this, super 关键字总结

Java 中 final, static, this, super 关键字总结 1. final 关键字 final关键字主要用在三个地方:变量、方法、类。 对于一个final变量,如果是基本数据类型的变量,则其数值一旦在初始化之后便不能更改;如果是引用类型的变量,则在对其初始化之后便不能再让...

2019-03-10 22:55:23

阅读数 36

评论数 0

Spark Streaming(DStreaming) VS Spark Structured Streaming 区别比较 优劣势

Spark Streaming(DStreaming) VS Spark Structured Streaming 区别比较 优劣势 背景 这篇博客主要记录Spark Streaming(DStreaming) 与 Spark Structured Streaming 之间的差别与优劣势。 Apa...

2019-03-07 21:04:46

阅读数 284

评论数 0

Java 多线程与线程池 Thread弊端与Executor存在问题 及解决方法

文章目录Java 多线程与线程池 Thread弊端与Executor存在问题 及解决方法1. 使用Thread弊端2. 线程池背景及优势3. Executor解析3.1 线程池原理3.2 配置线程池3.3 优雅关闭线程池4. Executor存在问题解决方法5. Ref Java 多线程与线程池 ...

2019-02-24 22:08:53

阅读数 114

评论数 0

Spring Boot 创建及使用多线程

文章目录Spring Boot多线程1. 介绍2. 配置类3. 基于@Async无返回值调用3.1 任务执行3.2 测试代码4. 基于@Async返回值的调用Ref Spring Boot多线程 1. 介绍 Spring是通过任务执行器(TaskExecutor)来实现多线程和并发编程,使用Thr...

2019-02-19 16:25:36

阅读数 124

评论数 1

Kafka入门教程其二 生产与消费详解

文章目录1. 概述2. 生产3. 消费 1. 概述 接着上一篇博客,本篇主要介绍Kafka的生产与消费的过程。Producers往Brokers里面的指定Topic中写消息,Consumers从Brokers里面拉去指定Topic的消息。 图中有两个topic,topic 0有两个partiti...

2019-02-17 22:33:13

阅读数 89

评论数 0

Kafka入门教程其一 消息队列基本概念与学习笔记

1. 综述 Apache Kafka是基于发布/订阅的容错消息系统,由Scala和Java编写,是一个分布式消息队列,具有高性能、持久化、多副本备份、横向扩展能力。 与其他消息传递系统相比,Kafka具有更好的吞吐量,内置分区,复制和固有的容错能力,这使得它非常适合大规模消息处理应用程序。 Kaf...

2019-01-27 18:18:19

阅读数 56

评论数 0

Hbase Rowkey CF 架构 概述 预分区及Rowkey设计 学习笔记

1. 概述 HBase是建立在Hadoop文件系统之上的分布式面向列的数据库。它是一个开源项目,是横向扩展的。 类似于数据库的存储层,HBase适用于结构化存储,并且为列式分布式数据库。 HBase是一个数据模型,类似于Google Big Table设计,可以提供快速随机访问海量结构化数据。它利...

2019-01-11 18:12:20

阅读数 115

评论数 0

HIVE 基本概念 数据单元 学习笔记

综述 Hive是一个数据仓库基础工具,由Java编写,在Hadoop中用来处理结构化数据,可以把SQL查询转换为一系列在Hadoop集群上运行的作业。 Hive设计的初衷是:对于大量的数据,使得数据汇总,查询和分析更加简单。它提供了SQL,允许用户更加简单地进行查询,汇总和数据分析。同时,Hive...

2018-12-11 21:14:00

阅读数 71

评论数 0

HDFS 基本概念及常用操作 学习笔记

目录基本概念读文件操作写文件操作可靠性常用命令Ref 基本概念 Hadoop 附带了一个名为 HDFS(Hadoop Distributed File System, Hadoop分布式文件系统)的分布式文件系统,基于 Hadoop 的应用程序使用 HDFS 。HDFS 是专为存储超大数据文件,运...

2018-12-09 21:08:16

阅读数 61

评论数 0

Spark 基本概念及 jobs stages tasks 等 解释

基础概念理解 Application 用户在 spark 上构建的程序,包含了 driver 程序以及在集群上运行的程序代码,物理机器上涉及了 driver,master,worker 三个节点. Driver Program 创建 sc ,定义 udf 函数,定义一个 spark 应用程...

2018-11-05 19:54:07

阅读数 191

评论数 0

Spark RDD / Dataset 相关操作及对比汇总笔记

本篇博客将会汇总记录大部分的Spark RDD / Dataset的常用操作以及一些容易混淆的操作对比。 0. 基本概念 首先介绍一下基本概念,详情可以参考之前的博客: Spark 与 Hadoop 学习笔记 介绍及对比 Databrick 's Blog on Spark Structured...

2018-10-25 16:09:19

阅读数 294

评论数 2

Spark Structured Streaming + Kafka使用笔记

这篇博客将会记录Structured Streaming + Kafka的一些基本使用(Java 版) spark 2.3.0 1. 概述 Structured Streaming (结构化流)是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engin...

2018-09-30 20:57:08

阅读数 1484

评论数 2

Databrick 's Blog on Spark Structured Streaming Summary

此篇博客将翻译及总结Databrick三篇关于 Spark Structured Streaming的文章,原文可点击小标题蓝字 Part1 实时数据使用Structured Streaming的ETL操作 1.1 Introduction 在大数据时代中我们迫切需要实时应用解决...

2018-08-28 14:42:37

阅读数 319

评论数 0

ElasticSearch 简要技术总结 与Spark整合 学习笔记

ElasticSearch 简要技术总结 1. 总览 ES是高度可伸缩的开源全文搜索和分析引擎。它可以实时地存储、搜索和分析大容量的数据。通常用作底层引擎/技术力量有复杂的搜索功能和需求的应用程序。 这是一些典型的应用场景: 在线网上商店允许客户搜索销售的产品。在这种情况下,可以使用...

2018-08-14 16:50:19

阅读数 1537

评论数 0

Spark 与 Hadoop 学习笔记 介绍及对比

这篇博客将会简单记录Hadoop与Spark对比,及HDFS,MapReduce的基本概念,方便理解整个大数据处理框架。 1. Hadoop 1.1 背景 Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。 HDFS...

2018-08-05 21:20:46

阅读数 173

评论数 3

Java Serializable 序列化学习笔记 及transient关键字 及 serialVersionUID 作用

综述 Java 提供了一种对象序列化的机制,该机制中,一个对象可以被表示为一个字节序列,该字节序列包括该对象的数据、有关对象的类型的信息和存储在对象中数据的类型。 将序列化对象写入文件之后,可以从文件中读取出来,并且对它进行反序列化,也就是说,对象的类型信息、对象的数据,还有对象中的数据类型可...

2018-08-04 21:02:48

阅读数 90

评论数 0

Spark中RDD 持久化操作 cache与persist区别

环境/背景 Spark 2.3.0 Scala 2.11 Java 1.8 在进行RDD操作的时候,我们需要在接下来多个行动中重用同一个RDD,这个时候我们就可以将RDD缓存起来,可以很大程度的节省计算和程序运行时间。 接下来可以通过查看Spark的源码对比RDD.cache()与RDD...

2018-07-02 15:33:13

阅读数 854

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭