自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(134)
  • 问答 (2)
  • 收藏
  • 关注

原创 2 HBase原理深入

第⼆部分 HBase原理深入第 1 节 HBase读数据流程HBase读操作⾸先从zk找到meta表的region位置,然后读取meta表中的数据,meta表中存储了用户表的region信息 根据要查询的namespace、表名和rowkey信息。找到写入数据对应的region信息 找到这个region对应的regionServer,然后发送请求 查找对应的region 先从memstore查找数据,如果没有,再从BlockCache上读取HBase上Regionserver的内存

2021-02-01 23:51:33 124

原创 1 分布式数据库系统—HBase

分布式数据库系统—HBase第一部分 初识HBase第 1 节 HBase 简介1.1 HBase是什么HBase 基于 Google的BigTable论⽂而来,是⼀个分布式海量列式⾮关系型数据库系统,可以提供超大规模数据集的实时随机读写。接下来,通过⼀一个场景初步认识HBase列列存储 如下MySQL存储机制,空值字段浪费存储空间如果是列列存储的话,可以这么玩......rowkey:1 name:⼩明rowkey:1 age:23rowkey:1 job..

2021-02-01 23:18:06 291

原创 7 Hadoop HA

第七部分 Hadoop HA7.1 HA概述所谓HA(High Available),即⾼可用(7*24⼩时不中断服务)。 实现⾼可用最关键的策略是消除单点故障。Hadoop-HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。 Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。 NameNode主要在以下两个⽅方⾯面影响HDFS集群NameNode机器发生意外,如宕机,集群将无法使用,直到管理员重启NameNode机器需要升级,包括软

2021-01-30 23:22:42 265

原创 6 Zookeeper应用实践

第六部分 Zookeeper应用实践ZooKeeper是一个典型的发布/订阅模式的分布式数据管理与协调框架,我们可以使用它来进⾏分布式数据的发布与订阅。另一⽅面,通过对ZooKeeper中丰富的数据节点类型进行交叉使用,配合Watcher 事件通知机制,可以⾮常⽅便地构建一系列分布式应⽤中都会涉及的核心功能,如数据发布/订阅、命名服务、集群管理理、Master选举、分布式锁和分布式队列等。那接下来就针对这些典型的分布式应用场景来做下介绍Zookeeper的两大特性: 客户端如果对Zookee.

2021-01-30 23:15:13 183 1

原创 5 zookeeper内部原理

第五部分 zookeeper内部原理5.1 Leader选举选举机制半数机制:集群中半数以上机器存活,集群可用。所以Zookeeper适合安装奇数台服务器。 Zookeeper虽然在配置文件中并没有指定Master和Slave。但是,Zookeeper⼯作时,是有一个节点为Leader,其它为Follower,Leader是通过内部的选举机制产生的。集群⾸次启动假设有五台服务器组成的Zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也就是没有历史数据,在存放数据量这一点

2021-01-30 18:02:53 237

原创 4 zookeeper的基本使用

第四部分 zookeeper的基本使用4.1 zookeeper命令行操作⾸先,进⼊到zookeeper的bin⽬录:cd /opt/lagou/servers/zookeeper-3.4.14/bin/# 连接本地的zookeeper服务器./zkcli.sh# 连接指定的服务器./zkCli.sh -server ip:port(2181)连接成功之后,系统会输出Zookeeper的相关环境及配置信息等信息。输入help之后,屏幕会输出可用的Zookeeper命令,如下图所示

2021-01-30 17:59:48 173

原创 3 zookeeper数据结构与监听机制

第三部分 zookeeper数据结构与监听机制ZooKeeper数据模型Znode在ZooKeeper中,数据信息被保存在⼀个个数据节点上,这些节点被称为znode。ZNode 是 Zookeeper 中最⼩数据单位,在 ZNode 下面又可以再挂 ZNode,这样⼀层层下去就形成了一个层次化命名空间ZNode树,我们称为ZNode Tree,它采⽤了类似⽂件系统的层级树状结构进行管理。见下图示例:在Zookeeper中,每⼀个数据节点都是一个ZNode,上图根⽬录下有两个节点,分别是ap.

2021-01-30 17:46:25 170

原创 2 zookeeper环境搭建

第二部分 zookeeper环境搭建2.1 zookeeper的搭建方式Zookeeper安装⽅式有三种,单机模式和集群模式以及伪集群模式。■ 单机模式:Zookeeper只运行在一台服务器上,适合测试环境;■ 伪集群模式:就是在⼀台服务器上运⾏多个Zookeeper 实例;■ 集群模式:Zookeeper运行于一个集群上,适合生产环境,这个计算机集群被称为一个“集合体”2.2 zookeeper集群搭建下载⾸先我们下载稳定版本的zookeeper:http://zookee

2021-01-30 17:44:23 115

原创 1 分布式协调服务框架—zookeeper简介

分布式协调服务框架—zookeeper第一部分 zookeeper简介1.1 zookeeper是什么?Zookeeper 是一个分布式协调服务的开源框架。 主要用来解决分布式集群中应用系统的一致性问题, 例如怎样避免同时操作同⼀数据造成脏读的问题。分布式系统中数据存在一致性的问题!!ZooKeeper本质上是一个分布式的小文件存储系统。 提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理理。 ZooKeeper提供给客户端监控存储在zk内部数据的功能,从而可以

2021-01-30 17:39:01 443

原创 8 HQL操作之DML命令

数据操纵语言DML(Data Manipulation Language),DML主要有三种形式:插入(INSERT)、删除(DELETE)、更新(UPDATE)。事务(transaction)是一组单元化操作,这些操作要么都执行,要么都不执行,是一个不可分割的工作单元。事务具有的四个要素:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability),这四个基本要素通常称为ACID特性。原子性。一个事务是一个不可再分割的..

2021-01-29 00:00:29 323

原创 数据采集工具—Flume

数据采集工具—Flume第一部分 Flume概述无论数据来自什么企业,或是多大量级,通过部署Flume,可以确保数据都安全、及时地到达大数据平台,用户可以将精力集中在如何洞悉数据上。第 1 节 Flume的定义Flume由Cloudera公司开发,是一个分布式、高可靠、高可用的海量日志采集、聚合、传输的系统。Flume支持在日志系统中定制各类数据发送方,用于采集数据;Flume提供对数据进行简单处理,并写到各种数据接收方的能力。简单的说,Flume是实时采集日志的数据采集引擎。

2021-01-28 15:30:28 2141

原创 10 Hive调优策略

Hive调优策略Hive作为大数据领域常用的数据仓库组件,在设计和开发阶段需要注意效率。影响Hive效率的不仅仅是数据量过大;数据倾斜、数据冗余、job或I/O过多、 MapReduce分配不合理等因素都对Hive的效率有影响。对Hive的调优既包含对HiveQL语句本身的优化,也包含Hive配置项和MR方面的调整。 从以下三个方面展开:架构优化参数优化SQL优化 10.1 架构优化执行引擎Hive支持多种执行引擎,分别是 MapReduce、Tez、Spark、Fli

2021-01-28 15:14:48 539

原创 9 hive-元数据管理

9.1 Metastore在Hive的具体使用中,首先面临的问题便是如何定义表结构信息,跟结构化的数据映射成功。所谓的映射指的是一种对应关系。在Hive中需要描述清楚表跟文件之间的映射关系、列和字段之间的关系等信息。这些描述映射关系的数据的称之为Hive的元数据。该数据十分重要,因为只有通过查询它才可以确定用户编写sql和最终操作文件之间的关系。Metadata即元数据。元数据包含用Hive创建的database、table、表的字段等元信息。元数据存储在关系型数据库中。如hive内置的Der...

2021-01-28 14:44:05 2185

原创 7 Hive - 函数

SQL面试题1、连续7天登录的用户-- 数据。uid dt status(1 正常登录,0 异常)1 2019-07-11 11 2019-07-12 11 2019-07-13 11 2019-07-14 11 2019-07-15 11 2019-07-16 11 2019-07-17 11 2019-07-18 12 2019-07-11 12 2019-07-12 12 2019-07-13 02 2019-07-14 12 2019-07-15 12 201...

2021-01-26 21:28:51 398

原创 数据交互工具 HUE

第一部分 Hue概述Hue(Hadoop User Experience)是一个开源的 Apache Hadoop UI 系统,最早是由Cloudera Desktop 演化而来,由 Cloudera 贡献给开源社区,它是基于 Python Web 框架 Django 实现的。通过使用 Hue 可以在浏览器端的 Web 控制台上与Hadoop 集群进行交互来分析处理数据,例如操作 HDFS 上的数据,运行MapReduce Job 等等。Hue所支持的功能特性集合:默认基于轻量级sqlite数据库管理

2021-01-25 14:36:59 639

原创 6 HQL操作之--DQL命令【重点】

DQL – Data Query Language 数据查询语言select语法:SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list][ORDER BY col_list][CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BYcol_list]][LIMIT

2021-01-23 22:23:13 176

原创 5 HQL操作之--数据操作

5.1 数据导入装载数据(Load)基本语法:LOAD DATA [LOCAL] INPATH 'filepath'[OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1,partcol2=val2 ...)]

2021-01-20 15:04:05 246

原创 4 HQL操作之 -- DDL命令

数据库的创建及删除;内部表,外部表,分区表,分桶表修改表,删除表主要命令:create、alter 、drop

2021-01-20 11:12:13 642

原创 3 数据仓库工具--Hive的数据类型与文件格式

大类类型ntegers(整型)TINYINT – 1字节的有符号整数SAMLINT – 2字节的有符号整数INT – 4字节的有符号整数BIGINT – 8字节的有符号整数Floating point numbers(浮点数)FLOAT – 单精度浮点数DOUBLE – 双精度浮点数Fixed point numbers(定点数)DECIMAL–17字节,任意精度数字,用户自定义精度定点数,如DECIMAL(10,3)String types(字符串)STRIN...

2021-01-19 14:07:57 224

原创 2 数据仓库工具 -- Hive的安装与配置

2.1 Hive安装配置Hive官网:http://hive.apache.org下载网址:http://archive.apache.org/dist/hive/文档网址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual安装前提:3台虚拟机,安装了Hadoop安装软件:Hive(2.3.7) + MySQL (5.7.26)备注:Hive的元数据默认存储在自带的 derby 数据库中,生产中多采用MySQLd

2021-01-19 13:43:39 270

原创 1 数据仓库工具 -- Hive的简介

hive 简介hive 优缺点hive 架构

2021-01-19 11:02:56 259 1

原创 3 Hadoop-HDFS分布式⽂件系统

3.1 HDFS 简介HDFS (全称:Hadoop Distribute File System,Hadoop 分布式⽂件系统)是 Hadoop 核⼼组成,是分布式存储服务。分布式⽂件系统横跨多台计算机,在⼤数据时代有着⼴泛的应⽤前景,它们为存储和处理超⼤规模数据提供所需的扩展能⼒。HDFS是分布式⽂件系统中的⼀种。重要概念HDFS 通过统⼀的命名空间⽬录树来定位⽂件; 另外,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各⾃的⻆⾊(分布式本质是拆分,各司其职);典型的 Ma

2021-01-18 16:21:01 352 2

原创 2 Hadoop 环境配置

2 Hadoop 环境配置

2021-01-17 23:15:05 187

原创 1 Hadoop 简介

1 Hadoop 简介

2021-01-17 22:13:07 259 2

原创 Hadoop-MR join 案例分析

1 MR Reduce端join代码实现Beanpackage com.lagou.join;import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public class JoinBean implements Writable { private String userId; privat

2021-01-17 19:41:40 238 1

原创 3 Mybatis的加载策略&注解开发

一 MyBatis加载策略1.1 什么是延迟加载?问题通过前面的学习,我们已经掌握了Mybatis中一对一,一对多,多对多关系的配置及实现,可以实现对象的关联查询。实际开发过程中很多时候我们并不需要总是在加载用户信息时就一定要加载他的订单信息。此时就是我们所说的延迟加载。举个栗子在一对多中,当我们有一个用户,它有个100个订单在查询用户的时候,要不要把关联的订单查出来?在查询订单的时候,要不要把关联的用户查出来?回答在查询用户时,用户下的订单应该是,什么时候用,什么时候查询。在查询订单

2020-12-03 23:51:08 121

原创 2 Mybatis 复杂映射&配置文件深入

Mybatis 复杂映射&配置文件深入一 Mybatis高级查询1.1 ResutlMap属性建立对象关系映射resultType如果实体的属性名与表中字段名一致,将查询结果自动封装到实体类中ResutlMap如果实体的属性名与表中字段名不一致,可以使用ResutlMap实现手动封装到实体类中1) 编写UserMapper接口public interface UserMapper { public List<User> findAllResultMap();

2020-12-01 23:13:07 153

原创 1 MyBatis的基本应用

SSM = springmvc + spring + mybatis一 框架简介1.1 三层架构软件开发常用的架构是三层架构,之所以流行是因为有着清晰的任务划分。一般包括以下三层:持久层: 主要完成与数据库相关的操作,即对数据库的增删改查。因为数据库访问的对象一般称为Data Access Object(简称DAO),所以有人把持久层叫做DAO层。业务层: 主要根据功能需求完成业务逻辑的定义和实现。因为它主要是为上层提供服务的,所以有人把业务层叫做Service层或Business层。表现层

2020-12-01 22:13:36 553

原创 6 后端开发基础-MVC模式&三层架构【思想】

一 MVC模式1.1 JSP发展史早期只有servlet,只能使用response输出html标签,非常麻烦。后来有了JSP,简化了servlet开发;如果过度使用JSP,在JSP页面中写了大量的java代码和html标签,造成难于维护,难于分工协作的场景。再后来为了弥补过度使用jsp的问题,我们使用servlet+jsp这套组合拳,利于分工协作。1.2 MVC介绍MVC设计模式: Model-View-Controller简写。MVC是软件工程中的一种软件架构模式,它是一种分离业务逻辑

2020-11-30 21:19:54 3087

原创 5 后端开发基础-Filter & Listener

一 filter概述生活中的过滤器净水器、空气净化器、地铁安检、山大王web中的过滤器当用户访问服务器资源时,过滤器将请求拦截下来,完成一些通用的操作应用场景如:登录验证、统一编码处理、敏感字符过滤二 快速入门需求:编写filter对目标资源servlet进行拦截① 编写java类,实现filter接口public class QuickFilter implements Filter { @Override public void init(FilterConfig filt

2020-11-26 22:53:45 137

原创 4 后端开发基础-Cookie & Session

Cookie & Session一 会话概述1.1 什么是会话?日常生活中:从拨通电话到挂断电话之间的一连串你问我答的过程就是一个会话。B/S架构中:从浏览器第一次给服务器发送请求时,建立会话;直到有一方断开,会话结束。一次会话:包含多次请求响应。1.2 会话技术问题:Http是一个无状态协议,同一个会话的连续两个请求相互独立,彼此并不了解作用:用于存储浏览器与服务器在请求和响应过程中产生的数据客户端会话技术:cookie服务器端会话技术:session二 Cookie【重

2020-11-26 22:23:58 276

原创 3 后端开发基础-Servlet

一 Servlet概述servlet= server+applet :运行在服务器端的java程序。Servlet是一个接口,一个类要想通过浏览器被访问到,那么这个类就必须直接或间接的实现Servlet接口作用接收请求,处理逻辑,响应结果****二 Servlet快速入门案例需求:编写一个普通的java类,通过浏览器可以访问servlet概述servlet快速入门servlet生命周期(笔试题)servlet体系结构url-pattern的配置方式Request对象Resp

2020-11-25 23:30:32 355

原创 2 后端开发基础-HTTP 协议

1 Http简介什么是Http协议HTTP协议:超文本传输协议(HTTP,HyperText Transfer Protocol)是互联网上应用最为广泛的一种网络协议。用于定义WEB浏览器与WEB服务器之间交换数据的过程。传输协议:在客户端和服务器端通信时,规范了传输数据的格式必须先有请求,才会有响应HTTP协议的作用HTTP协议是学习JavaWEB开发的基石,不深入了解HTTP协议,就不能说掌握了WEB开发,更无法管理和维护一些复杂的WEB站点。HTTP协议的特点基于请求/响

2020-11-22 18:12:55 293

原创 1 后端开发基础-Tomcat

Tomcat1.1 Web知识概述Web(互联网总称)Java Web:是用Java技术来解决相关web互联网领域的技术总和,通俗的说:将编写好的代码,发布到互联网,可以让所有用户都访问到1.1.1 软件架构网络中有很多的计算机,它们直接的信息交流,我们称之为:交互在互联网交互的过程的有两个非常典型的交互方式——B/S 交互模型(架构)和 C/S 交互模型(架构)C/S架构Client/Server 客户端/服务器访问服务器资源必须安装客户端软件例如: QQ,绝地求生,LOL

2020-11-22 17:43:14 868 2

原创 11、常用类库的概述和使用

常用的包(熟悉)包的名称和功能java.lang包 - 该包是Java语言的核心包,并且该包中的所有内容由Java虚拟机自动导入。如:System类、String类、…java.util包 - 该包是Java语言的工具包,里面提供了大量工具类以及集合类等。如:Scanner类、Random类、List集合、…java.io包 - 该包是Java语言中的输入输出包,里面提供了大量读写文件相关的类等。如:FileInputStream类、FileOutputStream类、…java.net包

2020-11-22 10:26:24 337

原创 11、MySQL-数据库连接池&DBUtils

1 数据库连接池1.1 连接池介绍什么是连接池实际开发中“获得连接”或“释放资源”是非常消耗系统资源的两个过程,为了解决此类性能问题,通常情况我们采用连接池技术,来共享连接Connection。这样我们就不需要每次都创建连接、释放连接了,这些操作都交给了连接池.连接池的好处用池来管理Connection,这样可以重复使用Connection。 当使用完Connection后,调用Connection的close()方法也不会真的关闭Connection,而是把Connection“归还”给池。

2020-11-22 00:02:13 377

原创 10、MySQL的应用之JDBC

1、JDBC概述1.1 什么是JDBCJDBC(Java Data Base Connectivity) 是 Java 访问数据库的标准规范.是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成。是Java访问数据库的标准规范。1.2 JDBC 原理JDBC是接口,驱动是接口的实现,没有驱动将无法完成数据库连接,从而不能操作数据库!每个数据库厂商都需要提供自己的驱动,用来连接自己公司的数据库,也就是说驱动一般都由数据库生成厂商提供

2020-11-14 23:53:47 516

原创 9、 DCL(数据控制语言)

MySql默认使用的都是 root 用户,超级管理员,拥有全部的权限。除了root用户以外,我们还可以通过DCL语言来定义一些权限较小的用户, 分配不同的权限来管理和维护数据库。1 创建用户语法格式CREATE USER '用户名'@'主机名' IDENTIFIED BY '密码';用户名:创建的新用户,登录名称主机名:指定该用户在哪个主机上可以登陆,本地用户可用 localhost;如果想让该用户可以 从任意远程主机登陆,可以使用通配符 %密码:登录密码创建 admin1 用户,只能

2020-11-14 18:44:28 182

原创 8、MySQL存储过程与触发器

1 存储过程1.1 什么是存储过程MySQL 5.0 版本开始支持存储过程。存储过程(Stored Procedure)是一种在数据库中存储复杂程序,以便外部程序调用的一种数据库对象。存储过程是为了完成特定功能的SQL语句集,经编译创建并保存在数据库中,用户可通过指定存储过程的名字并给定参数(需要时)来调用执行。简单理解: 存储过程其实就是一堆 SQL 语句的合并。中间加入了一些逻辑控制。1.2 存储过程的优缺点优点:存储过程一旦调试完成后,就可以稳定运行,(前提是,业务需求要相对稳定

2020-11-14 18:09:31 193

原创 7、MySQL视图

1 什么是视图视图是一种虚拟表。视图建立在已有表的基础上, 视图赖以建立的这些表称为基表。向视图提供数据内容的语句为 SELECT 语句, 可以将视图理解为存储起来的 SELECT 语句.视图向用户提供基表数据的另一种表现形式2 视图的作用权限控制时可以使用比如,某几个列可以运行用户查询,其他列不允许,可以开通视图 查询特定的列, 起到权限控制的作用简化复杂的多表查询视图 本身就是一条查询SQL,我们可以将一次复杂的查询 构建成一张视图, 用户只要查询视图就可以获取想要得到的信息(

2020-11-14 17:54:35 255

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除