小陈CZY-CSDN博客

原创 Spark原理分析

文章目录前言一、Spark运行1.1核心组件1.2运行流程1.3集群部署模式1.4yarn模式运行机制1.5Spark RPC框架二、SparkContext2.1SparkContext内部组件2.2SparkEnv内部组件2.3SparkContext整体启动流程2.4 三大组件启动流程三、作业执行原理四、shuffle详解4.1Spark Shuffle的两个阶段4.2Spark Shuffle技术演进4.3Hash Shuffle前言Spark 原理主要包括：核心组件的运行机制(Master、

2021-02-13 22:39:47 1804 1

原创 Spark算子

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码

2021-02-06 00:05:06 1031

原创 Spark高速计算引擎之Spark GraphX(四)

文章目录前言一、Spark GraphX概述1.1图的相关术语1.2图计算模式二、Spark GraphX 基础2.1 GraphX 架构2.2存储模式2.3核心数据结构前言Spark GraphX是一个分布式图处理框架，它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求。一、Spark GraphX概述GraphX是一个新的Spark API，它用于图和分布式图(graph-parallel)的计算。GraphX通过引入弹性分布式属性图(Resi

2021-02-03 21:11:25 1278

原创 Java垃圾回收机制

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、JAVA垃圾回收机制的意义二、如何判断一个对象是否有可以回收2.1引用计数法2.2可达性分析算法三、垃圾收集算法3.1标记清除法3.2复制算法3.3标记整理算法3.4分代收集算法前言Java技术体系中所提倡的自动内存管理最终可以归结为自动化地解决了两个问题：给对象分配内存以及回收分配给对象的内存，而且这两个问题针对的内存区域就是Java内存模型中的堆区。垃圾回收机制的引入可以有效的防止内存泄露、保证内存的有效

2021-02-03 17:57:14 788 1

原创 Spark高速计算引擎之Spark Streaming(四)

文章目录前言一、Spark Streaming概述1.1什么是Spark Steaming1.2 什么是DStream1.3Spark Streaming架构1.4 Spark Streaming优缺点1.5 DStream基础数据源1.6DStream转换操作二、Spark Stream与Kafak整合2.1kafka-010接口2.2 Offset 管理前言随着大数据技术的不断发展，人们对于大数据的实时性处理要求也在不断提高，传统的 MapReduce 等批处理框架在某些特定领域的应用应用场景上逐

2021-02-02 19:08:20 741 1

原创 Spark高速计算引擎之SQL处理(三)

文章目录前言一、Spark SQL概述1.1 Spark是什么1.2 Spark SQL优势1.3Spark SQL数据抽象1.4RDD，DataFame，Dataset区别和共性二，Spark SQL原理2.1SparkSession2.3三者的转换2.4SparkSQL中的join2.5 SQL解析过程前言Spark SQL自从面世以来不仅接过了shark的接力棒，为spark用户提供高性能的SQL on hadoop的解决方案，还为spark带来了通用的高效的，多元一体的结构化的数据处理能力。

2021-02-01 14:27:45 693

原创 Spark高速计算引擎之RDD编程(二)

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、RDD编程1.1RDD五大特征1.2RDD的特点1.3RDD的操作算子二、RDD高阶编程特性2.1序列化2.2RDD依赖关系2.3RDD任务切分中角色概念2.4.RDD持久化/缓存前言RDD是 Spark 的基石，对于初学者来说，它是非常重要的一部分内容，是实现 Spark 数据处理的核心抽象。RDD 是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合。将RDD这个核心概念理解好了，后续学习起Spark

2021-01-31 11:41:55 236

原创常见的数据结构与算法

文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言在这里简单介绍下常见的数据结构与算法，当然对于大多数人来说，数据结构提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：import numpy as npimport pandas as pdimport matplotlib.pyplot as plti.

2021-01-25 14:36:06 11580 1

原创高速计算引擎Spark(一)

文章目录前言一、Spark概述1.1Spark特点1.2Spark 与 Hadoop对比1.3Spark对比MR优势1.4Spark架构1.5集群部署模式二、Spark安装部署模式2.1本地模式2.2伪分布式2.3集群模式--Standalone模式2.5 集群模式--Yarn模式前言Spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算引擎，同时也是我个人非常喜欢的一款计算框架。首先给大家介绍一下SparkCore，接下来会写一系列的文章，进行总结，希望我和大家一起共同进步。一、S.

2021-01-14 13:38:59 409

原创 hive数据倾斜及优化

文章目录前言一、hive转化为MapReduce过程二、hive数据倾斜1.数据倾斜是什么2.数据倾斜的原因3.数据倾斜的底层原理三.hive优化2.读入数据总结前言Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表(类似于RDBMS中的表)，并提供类SQL查询功能；Hive是由Facebook开源，用于解决海量结构化日志的数据统计。hive调优无论在我们面试中还是工作中都经常遇到，今天我们先来从它的底层架构来说起。一、hive转化为MapReduce过程1.Ant

2020-12-22 11:42:34 314

原创 Java基础

一.继承当多个类之间有相同的特征和行为时，可以将相同的内容提取出来组成一个公共类，让多个类吸收公共类中已有的特征和行为而在多个类型中只需要编写自己独有的行为的机制.特点：1.子类不能继承父类的构造方法和私有方法，但私有成员变量可以被继承,但不能直接使用，通过共有的get,set方法来实现。2.自动调用父类无参构造方法，来初始化从父类继承的成员变量3.java支持单继承二.封装对成员变量进行密封包装处理，来隐藏成员变量的细节以及保证成员变量值的合理性。特点：1.私有化成员变量2.公有化g

2020-12-20 15:31:44 205

原创数据采集工具flume

文章目录前言一、flume概述1.1flume是什么1.2flume体系结构二.拦截器2.1时间添加戳拦截器2.2Host添加拦截器2.3正则表达式过滤拦截器三.选择器四.事务机制4.1Flume中的 Put 事务4.2Flume中的 Take 事务前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、flume概述1.1flume是

2020-12-18 20:34:52 582

原创数据仓库理论

文章目录前言一、数据仓库1.1 什么是数据仓库1.2数据仓库四大特征1.3数据仓库作用1.4数据仓库与数据库的区别1.5数据集市二.数据仓库建模方法2.1 ER模型2.2维度模型三.数据仓库分层前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、数据仓库1.1 什么是数据仓库数据仓库(DataWarehouse)是一个面向主题的

2020-12-15 15:12:34 1416

原创 Java面试考点(二)

文章目录一、线程1.1如何保证线程安全？1.2什么是线程池？1.3介绍一下线程同步和线程调度的相关方法。1.4当一个线程进入一个对象的synchronized方法A之后，其它线程是否可进入此对象的B方法？1.5说明一下多线程和同步有几种实现方法？1.6说明一下线程中的同步和异步有何异同？并且请举例说明在什么情况下会使用到同步和异步？1.7说明一下sleep() 和 wait() 有什么区别？1.8请你说明一下在监视器(Monitor)内部，是如何做到线程同步的？在程序又应该做哪种级别的同步呢？1.9同步方法

2020-12-14 13:11:53 175

原创 Java面试考点(一)

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、java基础1.1请你说明String 和StringBuffer的区别1.2请你说明一下int 和 Integer 有什么区别1.3数组(Array)和列表(ArrayList)的区别？什么时候应该使用Array而不是ArrayList？1.4什么是值传递和引用传递？1.5Java支持的数据类型有哪些？什么是自动拆装箱？1.6为什么会出现4.0-3.6=0.40000001这种现象？1.7java8的新特性吗，请简单介绍一

2020-12-13 10:56:24 763

原创 Redis从基础到进阶(三)

文章目录前言一、缓存问题1.1缓存穿透1.2数据并发竞争1.3Hot Key1.4Big Key二、分布式锁1.引入库2.读入数据总结前言这一篇章我们来聊聊Redis经典问题一、缓存问题1.1缓存穿透缓存穿透是指在高并发下查询key不存在的数据，会穿过缓存查询数据库。导致数据库压力过大而宕机解决方案：对查询结果为空的情况也进行缓存，缓存时间（ttl）设置短一点，或者该key对应的数据insert了之后清理缓存。问题：缓存太多空值占用了更多的空间使用布隆过滤器。在缓存之前在加一层布隆过滤

2020-12-10 20:00:27 181

原创 Redis从基础到进阶(二)

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Redis高级应用1.1 发布与订阅1.2 事务1.3 事务机制二.高可用方案1.1作用1.2原理与实现1.3哨兵模式1.4哨兵leader选举1.5集群与分区1.6官方cluster分区1.7分区1.8容灾前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参

2020-12-09 17:02:36 423

原创 Redis从基础到进阶(一)

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、什么是Redis？1.1redis应用场景1.2命令说明1.3缓存过期和淘汰策略二、Redis持久化RDB2.1触发快照的方式2.2RDB执行流程2.3RDB的优缺点AOF2.4AOF原理2.5 AOF重写、混合持久化AOF文件的载入与数据还原前言Redis（Remote Dictionary Server）2008年，意大利的一家创业公司Merzia推出了一款基于MySQL的网站实时统计系统LLOOGG，然而没过多久

2020-12-08 16:50:49 176

原创大数据面试考点之java集合总结

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、java集合概述二、Collection接口2.1List接口2.1ArrayList集合2.2LinkedList集合3.set接口3.1 HashSet类哈希表内部存储机制靠元素重写hashCode方法和equals方法来判断两个元素是否相等，如果相等则覆盖原来的元素，依此来确保元素的唯一性3.2 TreeSet类内部存储机制四.Map集合4.1HashMap类4.2 Hashtable介绍前言这一段时间一直在学习

2020-12-05 10:18:12 259

qq_41559118的博客