自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 Spark原理分析

文章目录前言一、Spark运行1.1核心组件1.2运行流程1.3集群部署模式1.4yarn模式运行机制1.5Spark RPC框架二、SparkContext2.1SparkContext内部组件2.2SparkEnv内部组件2.3SparkContext整体启动流程2.4 三大组件启动流程三、作业执行原理四、shuffle详解4.1Spark Shuffle的两个阶段4.2Spark Shuffle技术演进4.3Hash Shuffle前言Spark 原理主要包括:核心组件的运行机制(Master、

2021-02-13 22:39:47 1565 1

原创 Spark算子

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码

2021-02-06 00:05:06 881

原创 Spark高速计算引擎之Spark GraphX(四)

文章目录前言一、Spark GraphX概述1.1图的相关术语1.2图计算模式二、Spark GraphX 基础2.1 GraphX 架构2.2存储模式2.3核心数据结构前言Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。一、Spark GraphX概述GraphX是一个新的Spark API,它用于图和分布式图(graph-parallel)的计算。GraphX通过引入弹性分布式属性图(Resi

2021-02-03 21:11:25 1143

原创 Java垃圾回收机制

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、JAVA垃圾回收机制的意义二、如何判断一个对象是否有可以回收2.1引用计数法2.2可达性分析算法三、垃圾收集算法3.1标记清除法3.2复制算法3.3标记整理算法3.4分代收集算法前言Java技术体系中所提倡的 自动内存管理 最终可以归结为自动化地解决了两个问题:给对象分配内存 以及 回收分配给对象的内存,而且这两个问题针对的内存区域就是Java内存模型中的 堆区。垃圾回收机制的引入可以有效的防止内存泄露、保证内存的有效

2021-02-03 17:57:14 680 1

原创 Spark高速计算引擎之Spark Streaming(四)

文章目录前言一、Spark Streaming概述1.1什么是Spark Steaming1.2 什么是DStream1.3Spark Streaming架构1.4 Spark Streaming优缺点1.5 DStream基础数据源1.6DStream转换操作二、Spark Stream与Kafak整合2.1kafka-010接口2.2 Offset 管理前言随着大数据技术的不断发展,人们对于大数据的实时性处理要求也在不断提高,传统的 MapReduce 等批处理框架在某些特定领域的应用应用场景上逐

2021-02-02 19:08:20 626 1

原创 Spark高速计算引擎之SQL处理(三)

文章目录前言一、Spark SQL概述1.1 Spark是什么1.2 Spark SQL优势1.3Spark SQL数据抽象1.4RDD,DataFame,Dataset区别和共性二,Spark SQL原理2.1SparkSession2.3三者的转换2.4SparkSQL中的join2.5 SQL解析过程前言Spark SQL自从面世以来不仅接过了shark的接力棒,为spark用户提供高性能的SQL on hadoop的解决方案,还为spark带来了通用的高效的,多元一体的结构化的数据处理能力。

2021-02-01 14:27:45 534

原创 Spark高速计算引擎之RDD编程(二)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、RDD编程1.1RDD五大特征1.2RDD的特点1.3RDD的操作算子二、RDD高阶编程特性2.1序列化2.2RDD依赖关系2.3RDD任务切分中角色概念2.4.RDD持久化/缓存前言RDD是 Spark 的基石,对于初学者来说,它是非常重要的一部分内容,是实现 Spark 数据处理的核心抽象。RDD 是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。将RDD这个核心概念理解好了,后续学习起Spark

2021-01-31 11:41:55 157

原创 常见的数据结构与算法

文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言在这里简单介绍下常见的数据结构与算法,当然对于大多数人来说,数据结构提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as plti.

2021-01-25 14:36:06 9930

原创 高速计算引擎Spark(一)

文章目录前言一、Spark概述1.1Spark特点1.2Spark 与 Hadoop对比1.3Spark对比MR优势1.4Spark架构1.5集群部署模式二、Spark安装部署模式2.1本地模式2.2伪分布式2.3集群模式--Standalone模式2.5 集群模式--Yarn模式前言Spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算引擎,同时也是我个人非常喜欢的一款计算框架。首先给大家介绍一下SparkCore,接下来会写一系列的文章,进行总结,希望我和大家一起共同进步。一、S.

2021-01-14 13:38:59 325

原创 hive数据倾斜及优化

文章目录前言一、hive转化为MapReduce过程二、hive数据倾斜1.数据倾斜是什么2.数据倾斜的原因3.数据倾斜的底层原理三.hive优化2.读入数据总结前言Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表(类似于RDBMS中的表),并提供类SQL查询功能;Hive是由Facebook开源,用于解决海量结构化日志的数据统计。hive调优无论在我们面试中还是工作中都经常遇到,今天我们先来从它的底层架构来说起。一、hive转化为MapReduce过程1.Ant

2020-12-22 11:42:34 240

原创 Java基础

一.继承当多个类之间有相同的特征和行为时,可以将相同的内容提取出来组成一个公共类,让多个类吸收公共类中已有的特征和行为而在多个类型中只需要编写自己独有的行为的机制.特点:1.子类不能继承父类的构造方法和私有方法,但私有成员变量可以被继承,但不能直接使用,通过共有的get,set方法来实现。2.自动调用父类无参构造方法,来初始化从父类继承的成员变量3.java支持单继承二.封装对成员变量进行密封包装处理,来隐藏成员变量的细节以及保证成员变量值的合理性。特点:1.私有化成员变量2.公有化g

2020-12-20 15:31:44 137

原创 数据采集工具flume

文章目录前言一、flume概述1.1flume是什么1.2flume体系结构二.拦截器2.1时间添加戳拦截器2.2Host添加拦截器2.3正则表达式过滤拦截器三.选择器四.事务机制4.1Flume中的 Put 事务4.2Flume中的 Take 事务前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、flume概述1.1flume是

2020-12-18 20:34:52 516

原创 数据仓库理论

文章目录前言一、数据仓库1.1 什么是数据仓库1.2数据仓库四大特征1.3数据仓库作用1.4数据仓库与数据库的区别1.5数据集市二.数据仓库建模方法2.1 ER模型2.2维度模型三.数据仓库分层前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、数据仓库1.1 什么是数据仓库数据仓库(DataWarehouse)是一个面向主题的

2020-12-15 15:12:34 1249

原创 Java面试考点(二)

文章目录一、线程1.1如何保证线程安全?1.2什么是线程池?1.3介绍一下线程同步和线程调度的相关方法。1.4当一个线程进入一个对象的synchronized方法A之后,其它线程是否可进入此对象的B方法?1.5说明一下多线程和同步有几种实现方法?1.6说明一下线程中的同步和异步有何异同?并且请举例说明在什么情况下会使用到同步和异步?1.7说明一下sleep() 和 wait() 有什么区别?1.8请你说明一下在监视器(Monitor)内部,是如何做到线程同步的?在程序又应该做哪种级别的同步呢?1.9同步方法

2020-12-14 13:11:53 110

原创 Java面试考点(一)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、java基础1.1请你说明String 和StringBuffer的区别1.2请你说明一下int 和 Integer 有什么区别1.3数组(Array)和列表(ArrayList)的区别?什么时候应该使用Array而不是ArrayList?1.4什么是值传递和引用传递?1.5Java支持的数据类型有哪些?什么是自动拆装箱?1.6为什么会出现4.0-3.6=0.40000001这种现象?1.7java8的新特性吗,请简单介绍一

2020-12-13 10:56:24 675

原创 Redis从基础到进阶(三)

文章目录前言一、缓存问题1.1缓存穿透1.2数据并发竞争1.3Hot Key1.4Big Key二、分布式锁1.引入库2.读入数据总结前言这一篇章我们来聊聊Redis经典问题一、缓存问题1.1缓存穿透缓存穿透是指在高并发下查询key不存在的数据,会穿过缓存查询数据库。导致数据库压力过大而宕机解决方案:对查询结果为空的情况也进行缓存,缓存时间(ttl)设置短一点,或者该key对应的数据insert了之后清理缓存。问题:缓存太多空值占用了更多的空间使用布隆过滤器。在缓存之前在加一层布隆过滤

2020-12-10 20:00:27 103

原创 Redis从基础到进阶(二)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、Redis高级应用1.1 发布与订阅1.2 事务1.3 事务机制二.高可用方案1.1作用1.2原理与实现1.3哨兵模式1.4哨兵leader选举1.5集群与分区1.6官方cluster分区1.7分区1.8容灾前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参

2020-12-09 17:02:36 362

原创 Redis从基础到进阶(一)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、什么是Redis?1.1redis应用场景1.2命令说明1.3缓存过期和淘汰策略二、Redis持久化RDB2.1触发快照的方式2.2RDB执行流程2.3RDB的优缺点AOF2.4AOF原理2.5 AOF重写、混合持久化AOF文件的载入与数据还原前言Redis(Remote Dictionary Server)2008年,意大利的一家创业公司Merzia推出了一款基于MySQL的网站实时统计系统LLOOGG,然而没过多久

2020-12-08 16:50:49 112

原创 大数据面试考点之java集合总结

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、java集合概述二、Collection接口2.1List接口2.1ArrayList集合2.2LinkedList集合3.set接口3.1 HashSet类哈希表内部存储机制靠元素重写hashCode方法和equals方法来判断两个元素是否相等,如果相等则覆盖原来的元素,依此来确保元素的唯一性3.2 TreeSet类内部存储机制四.Map集合4.1HashMap类4.2 Hashtable介绍前言这一段时间一直在学习

2020-12-05 10:18:12 200

原创 浅谈jvm总结-面试不要不会了

文章目录前言一、jVM内存区域划分类装载器二、使用步骤1.引入库2.读入数据总结前言JVM俗称java虚拟机,是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能来实现的。提示:以下是本篇文章正文内容,下面案例可供参考一、jVM内存区域划分JVM的内部体系结构分为三部分,分别是:类装载器(ClassLoader)子系统,运行时数据区,和执行引擎。类装载器每一个Java虚拟机都由一个类加载器子系统(class loader subsystem),负责加载程序中的类型(类和接

2020-12-04 23:13:45 412 2

原创 Hbase框架结构

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录1.Hbase简介一、Hbase的特点1.hbase整体架构二、使用步骤1.引入库2.读入数据总结1.Hbase简介Hbase基于 Google的BigTable论⽂⽽来,是⼀个分布式海量列式⾮关系型数据库系统,可以提供超⼤规模数据集的实时随机读写。提示:以下是本篇文章正文内容,下面案例可供参考一、Hbase的特点海量存储:底层基于HDFS存储海量数据列示存储:Hbase表的数据是基于列族进行存储的,一个列族包含若干

2020-11-25 11:13:31 254

原创 Zookeeper框架结构

ZooKeeper框架结构Zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题。Zookeeper本质上是一个分布式的小文件系统。Zookeeper提供给客户端监控存储在zk内部数据的功能。提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录ZooKeeper框架结构前言一、Zookeeper的架构组成LeaderFollowerObserver二、Zookeeper数据结构与监听机制1.zookeeper数据模型Znode2.Wat

2020-11-24 14:48:33 1082

原创 mysql基础知识点

学习目标:Mysql数据库学习内容:例如:1.1 mysql事务##手动提交(1)开启事务 start transaction;或者begin;(2)提交事务 commit;(3)回滚事务 rollback;##自动提交(默认提交方式)(1)每执行一条DML语句,都是一个单独的事务。1.2事务四大特性(1)原子性(2)一致性(3)隔离性(4)持久性1.3 事务隔离(1)read uncommitted:读未提交(2)read commmitted:读已提交(3)re

2020-10-20 21:09:33 81

原创 HIVE数据仓库工具

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档HIVE数据仓库工具前言Hive是基于Hadoop的一个数据仓库工具,可以将 结构化的数据文件 映射为一张表 (类似于RDBMS中的表),并提供类SQL查询功能;Hive是由Facebook开源,用于解决海量结构化日志的数据统计。提示:以下是本篇文章正文内容,下面案例可供参考一、数据仓库是什么?数据仓库是面向主题的,集成的,相对稳定的,反应历史变化的数据集合,主要用于管理决策。1.HIVE和RDBMS对比相同点查询语言

2020-10-17 15:56:00 325

原创 hadoop框架平台

一、Hadoop详细介绍狭义上说Hadoop就是一个框架平台,广义上讲Hadoop代表大数据的一个技术生态 圈,包括很多其他软件框架二、Hadoop重要组成部分1.hdfs分布式文件系统(1)HDFS重要概念NameNode:储存文件的元数据,比如文件名,文件目录结构,文件属性,以及每个文件的块列表和块所在的DataNode。SecondaryNameNode: 监控hdfs状态,获取元数据的快照。Datanode:储存文件块数据,以及块数据的校验命名空间:通过目录树来定位文件,由Namen

2020-10-08 11:43:39 251

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除