大数据系列详解
大数据系列详解旨在为更多初次接触大数据或者想转行到大数据行业的从业者提供系统的,完整的知识分享,祝同行们在大数据行业越走越宽!
古小龙
知我所能,我所能者,尽善其美。知我若不能,我所不能者,虚怀若谷。
展开
-
SparkSQL网站日志内容分析+spark-streaming用户实时点击统计,手动管理Offset到ZooKeeper
目录练习环境:本地测试方法:1.Spark离线批处理2.Kafka + SparkStreaming + Redis3.Kafka + SparkStreaming + mysql4.Spark Streaming 中实现 Exactly-Once 语义 5.Kafka + SparkStreaming手动管理 offset6.Spark SQL 网...原创 2019-11-28 11:28:22 · 520 阅读 · 0 评论 -
大数据系列(八)之 Hbase 集群安装
目录一、Hbase 集群规划二、下载安装三、配置Hbase四、启动 hbase一、Hbase 规划master节点:node01RegionServer节点:node02、node03二、下载安装2.1下载并解压,我下载的是 hbase-2.1.8-bin.tar.gz(需要对应hadoop版本下载)Hbase下载:https://mirrors.tun...原创 2019-12-12 11:40:28 · 338 阅读 · 0 评论 -
大数据系列(七)之 kafka集群安装及Java实现kafak生产者、消费者
目录1.集群规划2.下载kafka安装包3.安装kafka4.创建软连接5.添加到环境变量6.修改kafka配置文件 server.properties7.在安装目录下创建kafka-logs文件夹(本例中,安装目录是:/usr/local/kafka)8.将配置好的kafka安装包拷贝到其他节点,并创建软连接9.分别修改其他节点的配置文件 server.pro...原创 2019-11-14 08:16:37 · 369 阅读 · 0 评论 -
大数据系列(六)之 Spark 分布式计算框架
目录一、Spark是什么?二、为什么要用Spark?三、Spark特点四、基本概念及RDD、checkpoint介绍4.1 Spark核心概念RDD详解4.2 checkpoint(检查点)详解五、Spark架构设计六、Spark核心组件七、Spark运行模式八、小结本文仅用于学习交流使用,感谢大家的阅读!一、Spark是什么?Spark是用于大...原创 2019-10-18 16:49:48 · 3004 阅读 · 1 评论 -
大数据系列(五)之 Flume 数据传输
目录一、Flume简介二、Flume架构2.1 Flume基本组件2.2 Flume常见数据流模型三、Source,Channel,Sink 详解3.1 Source3.2 Channel3.3 Sink四、小结本文仅用于学习记录总结所用,配置方面有大量参考官方文档,以方便查阅,不喜勿喷。Flume可以说是配置型框架,通过简单的配置实现数据的收集和发送,...原创 2019-10-11 15:26:46 · 3052 阅读 · 0 评论 -
大数据系列(四)之 MapReduce过程及shuffle详解
目录一、什么是MapReduce?二、怎么理解Hadoop中的MapReduce?三、MapReduce应用场景四、MapReduce执行流程五、shuffle详解5.1 Map阶段的shuffle5.2 Reduce阶段的shuffle六、MapReduce练习WordCount本篇文章将会介绍Hadoop重要的计算框架MapReduce。本章着重从...原创 2019-10-09 11:11:09 · 2127 阅读 · 0 评论 -
大数据系列(三)之 Hadoop Yarn 资源调度框架详解
目录一、为什么要使用资源调度系统Yarn二、Yarn的主要功能三、Yarn组件四、Yarn架构详解五、Yarn执行工作流程六、Yarn高可用小结一、为什么要使用资源调度系统Yarn这还要从Hadoop1.0说起,关于Hadoop1.0 的架构这里就不多做介绍了,感兴趣的同学自行了解一下。在Hadoop1.0 中,MR 作业的调度还是有两个重要的组件:JobTra...原创 2019-09-07 11:19:57 · 1286 阅读 · 0 评论 -
大数据系列(二)之 Hadoop hdfs 分布式文件系统详解
目录一、HDFS概述二、文件命名空间三、HDFS组件介绍四、架构详解五、了解一下HDFS的操作六、HDFS 不适合存储小文件七、HDFS高可用实现原理小结在了解HDFS之前,我们先来简单介绍一下Hadoop:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算...原创 2019-09-03 10:51:35 · 909 阅读 · 0 评论 -
大数据系列(一)之 ZooKeeper 分布式协调服务详解、搭建和Java API实现动态上下线,Watcher机制
本文创作的初心是为学习或了解ZooKeeper的童鞋提供帮助,请大家耐心仔细阅读。目录一、Zookeeper 是什么 ?二、Zookeeper 在Hadoop生态中是干什么的?三、Zookeeper 是怎么实现的?四、ZooKeeper的基本运转流程五、Zookeeper 中的事务操作 六、Zookeeper 特点七、Zookeeper 集群中的...原创 2019-08-21 20:10:21 · 668 阅读 · 0 评论 -
大数据系列 之 学习准备
在学习大数据的过程中,需要具备的能力或者知识,在这里简单的罗列一下:语言基础:需要会使用shell脚本、java和scala(这俩语言主要是用于日常代码和阅读源代码) 工具:IDE如eclipse或者idea,虚拟机和secureCRT连接工具 书籍:《Hadoop权威指南》《Hadoop YARN权威指南》《Spark快速大数据分析》《从Paxos到zookeeper分布式一致性原理与实...原创 2019-10-09 15:43:58 · 194 阅读 · 0 评论