小羊and阿童木-CSDN博客

原创工作流调度系统Azkaban

一、概述1.1 工作流调度系统一个完整的数据分析系统，通常都是由大量任务单元组成： shell脚本chengx java程序 mapreduce程序 hive脚本等各任务单元之间存在时间先后及依赖关系，为了很好的组织起这样的复杂执行计划，需要一个工作流调度系统来调度任务的执行。假如，我有这样⼀一个需求，某个业务系统每天产⽣生20G原始...

2022-01-25 15:48:11 1060 1

原创 HBase

一、初始HBase1.1 HBase简介1.1.1 HBase是什么HBase是Goole的BigTable论文而来，是一个分布式海量列示非关系型数据库系统，可以提供超大规模数据集的实时随机读写。认识HBase列存储如下是MySql存储机制，空值字段浪费存储空间如果是列存储的话：列存储的优点： 1.减少存储空间的占用。 ...

2022-01-21 12:25:46 3683

一、Zookeeper简介1.1 Zookeeper是什么Zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题，例如怎样避免同时操作同一数据造成脏读的问题。分布式系统中数据存在一致性问题！！！ Zookeeper本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储，并且可以对树中的节点进行有效管理。 Zookeeper提供给客户端监控存储在zk内部数据的功能，从而可以达到基于数据的集群管理。诸如：...

2022-01-17 14:59:53 1896

原创 1-3 交互式查询工具Impala

一、Impala概述1.1 什么是Impala Impala是Cloudera提供的一款开源的针对HDFS和HBASE中PB级别数据进行交互式实时查询（Impala速度快），Impala是参照谷歌中新三篇论文中Dremel实现而来，其中旧三篇论文分别是（BigTable、GFS、MapReduce）分别对应即将学的HBase和以及学过的HDFS、MapReduce。 Impala最大卖点和特点就是“快速”，Impala中文翻译是“高角羚羊”。1.2 Impala优...

2022-01-10 16:13:28 2262

原创数据迁移工具 - Sqoop

一、Sqoop概述 Sqoop是一款开源的工具，主要用于在hadoop（hive）与传统数据库（mysql、Oracle、postgresql）间进行数据的传递。可以将关系型数据库中的数据导入HDFS中，也可以将HDFS中的数据导入到关系型数据库中。将导入导出命令转换为MapReduce程序来实现。翻译出的MapReduce中主要是对inputformat和outputformat进行定制。二、安装配置Sqoop 官网：http:...

2021-12-13 14:55:27 1860

原创数据采集工具 - Flume

一、Flume概述无论数据来自什么企业，或是多大量级，通过部署Flume，可以确保数据都安全、及时的送达大数据平台，我们可以集中精力在如何洞悉数据上。1.1 Flume的定义由Cloudera公司开发的，是一个分布式、高可靠、高可用的海量日志采集、聚合、传输的系统。 Flume支持在日志系统中定制各类数据发送方，用于采集数据。 Flume提供对数据进行简单处理，并写到各种数据接收方的能力。简单的说，Flume就是...

2021-12-10 12:42:20 3385 1

原创数据交互 -- HUE

一、Hue概述 HUE（Hadoop User Experience）是一个开源的Apache Hadoop UI系统，最早由Cloudera Desktop演化而来，是基于Python Web框架实现的。通过Hue可以在浏览器的Web控制台上与Hadoop集群进行交互来分析处理数据，例如操作HDFS上的数据，运行mapReduce Job等等。 Hue所支持的功能特性集合： 1.默认基于轻量级sqlite数据库管理会话数据，用户认证和授权，可以自定义为...

2021-11-05 12:16:06 2131

原创 SecureCRT 链接虚拟机失败

不知道为什么SecureCRT链接虚拟机总是失败开始我每次都需要stop 然后restart service NetworkManager stop service network restart可是今天，这顿操作不好使了。。。然后我继续度娘~~~~找到如下解决办法：关掉方法:systemctl stop NetworkManagersystemctl disable NetworkManager...

2021-09-22 11:48:40 210

原创第三阶段 Hadoop核心及生态圈技术

第一部分大数据简介第二部分 Hadoop简介第三部分 Apache Hadoop的重要组成第四部分 Apache Hadoop完全分布式集群搭建第五部分 HDFS分布式文件系统第六部分 MapReduce编程框架第七部分 Yarn资源调度第八部分 Apache Hadoop核心源码剖析第九部分调优及二次开发实例...

2021-09-06 11:03:09 131

原创第九部分：调优及二次开发实例

一、Job执行三原则1.1 原则一充分利用集群资源尽量让所有节点都有任务处理，这样能尽量保证集群资源被充分利用，任务的并发度达到最大。可以通过调整处的数据量大小，以及调整map和reduce任务数量。 Reduce的个数控制通过：“mapreduce.job.reduces” Map的个数取决于使用了哪种InputFormat，默认的TextFileInputFormat将根据block的个数来分配map个数（一个block一个map）。1.2 ...

2021-09-02 08:47:11 171

原创第七部分：Yarn资源调度

一、Yarn框架 ResourceManager（rm）：处理客户端请求，启动/监控ApplicationMaster，监控NodeManager、资源调度与分配。 NodeManager（nm）：单节点上的资源管理，处理来自rm的命令，处理来自am的命令。 ApplicationMaster（am）：数据切分、为应用程序申请资源，并分配给内部任务、任务的监控与容错。 Container：对运行环境的抽象，封装了CPU、内存等多维资源以及环...

2021-09-01 14:30:58 152

原创第六部分：MapReduce编程框架

一、MapReduce思想核心思想是：分而治之。充分利用了并行处理的优势。 MapReduce任务过程是分为两个阶段： Map阶段：Map阶段主要任务是“分”，把复杂的任务分解为若干个简单任务来并行处理。Map阶段这些任务可以并行计算，彼此之间没有依赖关系。 Reduce极端：Reduce阶段主要作用是“合”，即对map阶段的结果进行全局汇总。二、官方wordcount案例源码解析反...

2021-09-01 10:50:42 223

原创第五部分：HDFS分布式文件系统

前言：上一章节大致介绍了一下hadoop框架的三个重要组成部分，从这一章节开始一次详细介绍。一、HDFS简介是hadoop核心组成，分布式存储服务。分布式文件系统横跨多台计算机，在大数据时代有着广泛的应用前景，它们为存储和处理超大规模数据提供所需的扩展能力。HDFS是分布式文件系统中的一种。二、HDFS重要概念 HDFS通过通过统一的命名空间目录树来定位文件。另外，它是分布式的，由很多服务器联合起来实现其功...

2021-08-26 08:56:06 150

原创第四部分：Apache Hadoop完全分布式集群搭建

老师好像说这部分面试不会问 + 以后也不咋会用 (#^.^#) 简单记下吧。软件和操作系统版本Hadoop框架是采用Java语言编写，需要java环境（jvm）JDK版本：JDK8版本集群：知识点学习：统一使用vmware虚拟机虚拟三台linux节点，linux操作系统：Centos7项目阶段：统一使用云服务器，5台云服务器节点Hadoop搭建方式单机模式：单节点模式，非集群，生产不会使用这种方式...

2021-08-24 13:19:23 172

原创第三部分：Apache Hadoop的重要组成

一、Hadoop HDFS Hadoop Distribute File System 一个高可靠、高吞吐量的分布式文件存储系统。采用“分而治之”思想：比如100T数据，分：拆分--》数据切割，100T数据拆分为10G一个数据块由一个电脑节点存储这个数据块。数据切割、制作副本、分散存储一个大数据被切分成多个数据块，存储在多个DataNode上。 NameNode（nn）：存储文件...

2021-08-24 10:27:01 116

原创第二部分：hadoop简介

一、什么是hadoop 狭义上hadoop就是指一个框架：HDFS分布式文件系统（存储）、MapReduce分布式离线计算框架（计算）、YARN资源调度框架。广义上的hadoop：除了包含hadoop框架之外，还有溢写辅助框架：Flume日志数据采集、Sqoop ELT关系型数据库数据采集、Hive深度依赖hadoop框架完成计算、Hbase大数据领域的数据库。 hadoop就是一个适合大数据的分布式存储和计算的平台。目前所讲述的就是狭义的hadoop框...

2021-08-24 09:53:31 131

原创第一部分：大数据简介

重新整理下大数据笔记，之前所有板块在一篇文章查看起来太麻烦了，正好复习了！第一节：大数据定义大数据是指无法在一定时间范围内使用常规软件工具进行捕捉、管理和处理的数据集合，是需要新的处理模式才具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。第二节：大数据特点 5V：Volume（大量）、Velocity（高速）：数据的创建、存储、分析都被要求高速处理，比如电商的试试推...

2021-08-24 09:21:14 113

原创第八部分：Apache Hadoop核心源码剖析

一、NameNode启动流程二、DataNdoe启动流程三、NameNode如何支撑高并发访问（双缓冲机制）......其实还没看懂，等研究好了再补上这块笔记吧！ε=(´ο｀*)))唉

2021-08-17 08:48:32 79

原创 Linux及shell编程

第一章 Linux概述Unix操作系统是Linux的前身；多用户、多任务操作系统；收费的；GPL协议：所有GPL协议下的自由软件都必须遵循“CopyLeft”（非版权）原则：即自由软件允许用户自由拷贝、修改和销售，但对其源代码的任何修改都必须向所有用户公开。GNU计划：旨在开发一个类似UNIX并且是自由软件的完整操作系统。Linux系统特点：开放性（开源）、多用户、多任务、良好的用户界面、优异的性能和稳定性。Linux版本：常用的主流版本——》Debian、redhat、ubuntu、

2021-06-08 09:51:55 317 4

原创 MySql数据库二

五、JDBCjdbc就是操作关系型数据库的规则（接口），数据库厂商需要实现这套接口，并且提供数据库驱动jar包。我们去使用这套接口，真正执行的是对应的驱动包里的实现类。com.mysql.jdbc.Driver类是mysql提供的实现类，它实现了java.sql.Driver；...

2021-03-02 14:17:30 228

原创 MySql数据库一

一、MySql基础、入门安装、卸载、配置环境变量。。。此处省略！命令行：停止MySql服务：net stop mysql57；启动Mysql：net start mysql57; 登录 mysql -uroot -p123456；退出exit或quit； mysql -h127.0.0.1 -uroot -p123456;SQLYogMySql安装目录bin->可执行文件mysql.exedocs->文档include->头文件...

2021-02-03 10:29:48 198

原创反射机制

反射机制之前好像学过，也自己为了面试研究过。。。但是现在好像忘记了。一、首先：反射机制的概念——>编写代码时不知道要创建什么类，也不知道要调用什么方法，在运行的时候通过传递参数来决定，该机制就叫做动态变成技术，也就是反射机制。通俗的来说反射机制就是用于动态创建对象并且动态调用方法的机制。二、Class类是一种数据类型，没有公共的构造方法，由java虚拟机和类加载器自动构造完成，本质上是加载到内存中的运行时类。...

2021-01-15 15:31:48 72

原创 spring第一天

@Component注解。表明该类会被作为组件类，并告知Spring要为这个类创建bean。@ComponentScan。在Spring中启用组件扫描。默认会扫描与配置类相同的包。 XML配置中与之对应的是<context:component-scan base-package="***">元素...

2018-05-30 17:55:40 147

原创 idea编码设为utf-8

idea的全局编码设为utf-8File-Other Settings->Default Settings

2018-05-30 11:12:54 201

转载在IntelliJ IDEA上使用Maven创建Spring项目

初次在idea上使用Maven搭建spring项目，由于idea自在Maven插件，所以无需下载Maven，但是网上说也可以配置使用自己的maven，然而不知为啥，我用自己的maven在例如使用ApplicationContext类的时候总导入不了，找不到对应的包，可能是我的maven有问题，暂且跳过这个问题，使用idea自带的maven插件吧~~~1、File->New->Proje...

2018-05-29 17:10:14 14206 2

helloworld999999的博客