拉兹罗-CSDN博客

原创 5分钟教你搭建Hadoop本地模式以及Hadoop伪分布式

以下不涉及完全分布式，只说明单机版和伪分布式一，hadoop本地模式和伪分布式模式之间的区别1.单机(非分布式)模式这种模式在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件系统。2.伪分布式运行模式这种模式也是在一台单机上运行，但用不同的Java进程模仿分布式运行中的各类结点: (NameNode,DataNode,JobTracker,TaskTracker,Secon...

2018-11-24 16:15:55 506 2

spark内核分析底层原理解析

此文档4万字，详细介绍了spark整体概述，脚本解析，spark通讯架构，master节点启动，worker节点启动，client启动流程，driver和driverRunner，spark上下文，job提交task的拆分，task执行和回执，spark的中间数据存储，以及spark的shuffer过程，内存管理，部署模式，带你详细了解spark的底层原理

2019-01-17

spark图计算应用解析

此文档共2.2万字，详细介绍了spark图计算的存储模式，图的构建，原理分析，以及计算模式，加上常用的API，PageRank排名算法等，章图算法介绍，还有实现代码练习

2019-01-17

Hadoop HDFS原理分析，技术详解

HDFS概述，HDFS客户端操作，HDFS数据流，namenode工作机制，datanode工作机制，HDFS 高可用集群配置

2018-12-01

spark 优化

本文26000字，囊括spark调优所有方面，所有方式，包括，资源分配，算子调优，JVM，Shuffle，troubleshooting，数据倾斜等等，以上大数据spark面试必问

2018-12-01

spark 调优解析 spark 企业调优

本文76000字，通篇spark性能调优，性能监控风湿，数据倾斜调优，shuffle调优，程序开发调优，运行资源调优，JVM，GC调优，以及企业spark大数据平台调优真实案例，用于企业spark调优参考，学习交流

2018-12-01

Spark Streaming解析

SparkStreaming学习文档，21000字，详细介绍技术，以及应用，代码编写，分析原理，以及拓展

2018-12-01

spark SQL应用解析

学习sparkSQL详细解析，SparkSQL实现功能，代码实例练习，以及实战，计算所有订单中每年的销售总数、销售总额计算所有订单每年最大金额订单的销售额计算所有订单中每年最畅销货品

2018-11-24

Spark Core 应用解析

1.自学sparkcore技术必不可少，详解sparkcore，以及三个sparkcore实例练习（1）计算独立IP数（2）统计每个视频独立IP数（3）统计一天中每个小时间的流量手把手教你操作

2018-11-24

Hadoop入门学习文档

1.大数据概论，大数据特点，Hadoop框架 2.hadoop组成，hdfs架构，mapreduce架构概述，在虚拟机上安装hadoop 3.hadoop运行模式，本地运行hadoop，以及伪分布式，完全分布式搭建介绍 4.hadoop源码编译

2018-11-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人