2021年03月_章鱼哥TuNan&Z

原创 HBase（三）

Hadoop实时day21–Apache HBase今日内容大纲1、Apache HBase和 mapreduce整合（重要）读写hbase表 bulkload加载数据（file--->hfile--->bulkload--->hbase）2、Apache HBase Hive整合（重要）3、Apache HBase sqoop整合 mysql<---->hbase4、HBase 预分区 + rowkey设计（重要）（重要）（重要）（重要）（重要）（

2021-03-30 15:51:18 124

原创 HBase（二）

hadoop实时day20–Apache HBase今日课程内容大纲1、Apache HBase 内部原理2、zk在hbase中作用3、HBase读写数据流程4、HBase 3个核心机制 memstore flush机制 storefile compact机制 region split机制5、HBase java api操作 hbase <--->spark、flink、java DDL：创建表删除表修改表（shell） DML:put get scan de

2021-03-25 13:21:39 109

原创 HBase

hadoop实时day19–Apache HBase今日课程内容大纲1、Apache HBase 介绍概述 nosql 数据库2、Apache HBase 数据模型 3、Apache HBase 和hadoop关系和rdbms关系4、Apache HBase 特性优点5、Apache HBase 组件角色、职责--初识版主从架构集群6、Apache HBase集群搭建 7、Apache HBase shell 操作 DDL:创建表修改表删除表 DML:插入数据

2021-03-25 01:37:58 387

原创 hive注释中文乱码解决方案

一、修改元数据表注解为UTF8alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;alter table PARTITION_PARAMS modify column PARAM_VALUE varchar(4000) characte

2021-03-23 00:17:02 218

原创数据仓库

数据仓库1. 目标理解OLTP和OLAP的区别理解数据仓库的特点理解数据仓库系统架构理解数仓的指标与维度理解星型模型和雪花模型掌握数据仓库的分层方法2. 数据仓库介绍2.1数据仓库概念数据仓库概念创始人在《建立数据仓库》一书中对数据仓库的定义是：数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、数据集成的（Integrated）、相对稳定（非易失）的（Non-Volatile）、反应历史变化（时变）（Time Variant）的数据

2021-03-21 10:58:20 882

原创数仓工具

数仓工具1、ETL1.1ETL介绍 ETL（Extract-Transform-Load）是将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程，ETL较常用的数据仓库，从数据源抽取出来所需要的原始数据，经过数据清洗，最终将清洗后的数据加载到数据仓库中去。1.2数据抽取数据抽取是从数据源抽取需要的原始数据，抽取的方式多种多样，要根据数据源的特点来确定，通常有如下几种数据抽取的方式： 1、从关系数据抽取数据通过OLTP系统采用

2021-03-20 17:29:34 2413 1

原创 mysql TIMESTAMPDIFF和TIMESTAMPADD用法

mysql TIMESTAMPDIFF和TIMESTAMPADD用法**TIMESTAMPDIFF****语法**TIMESTAMPDIFF(interval,datetime_expr1,datetime_expr2)**说明**返回日期或日期时间表达式datetime_expr1和datetime_expr2之间的整数差。其结果的单元由interval参数给出。该参数必须是以下值的其中一个：- FRAC_SECOND：表示间隔是毫秒- SECOND：秒- MINUTE：分钟

2021-03-19 00:23:08 179

原创 Hive sql练习

###Hive sql练习-- 1、查询"01"课程比"02"课程成绩高的学生的信息及课程分数 SELECT a.*,b.s_score AS 01_score,c.s_score AS 02_score FROMstudent aLEFT JOIN score b ON a.s_id=b.s_id AND b.c_id='01'LEFT JOIN score c ON a.s_id=c.s_id AND c.c_id ='02' WHERE b.s_score>c.s_score;--

2021-03-16 13:35:08 364

原创五、Hive数据仓库（完整版）

1.数据仓库的介绍1.1. 数据仓库的基本概念数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库顾名思义，**是一个很大的数据存储集合，出于企业的分析性报告和决策支持目的而创建，对多样的业务数据进行筛选与整合。**它为企业提供一定的BI（商业智能）能力，指导业务流程改进、监视时间、成本、质量以及控制。数据仓库的输入方是各种各样的数据源，最终的输出用于企业的数据分析、数据挖掘、数据报表等方向飞。1.2数据仓库的主要特征数据仓库是面向主题的（Subject-Orien

2021-03-13 13:53:02 3808 2

原创 Hive的基本操作

Hive的基本操作一、回顾MapReduce中补充分片的规则：决定了Map个数，取决于输入类、默认输入类：TextInputFormat输入的文件是否大于128的1.1倍如果大于，128M一个块对应一个分片如果小于，整体作为一个分片分片的方法：getSplitsMapReduce JoinReduce Join特点：通过让两份数据经过shuffle，将相同的关联字段进行分组，在reduce中实现join场景：大数据 join 大数据Map Join特点

2021-03-11 14:40:34 384

原创 YARN

YARN一、回顾Shuffle功能与过程功能分区：有多个Reduce的情况下，决定了Map输出的每一条数据会进入哪个Reduce默认：HashPartition自定义分区：Partitioner / getPartition当默认分区规则不能满足需求数据分配不均衡排序：为了做分组，也可以利用MapReduce自己实现的排序来完成需求中的排序默认：调用K2自带的compareTo方法自定义排序：WritableComparator / compa

2021-03-09 01:15:22 258 1

原创 MapReduce Shuffle 过程详解

MapReduce Shuffle 过程详解一、回顾Shuffle功能分区问题：MapReduce中Reduce的设计本身是为了实现聚合，所以Reduce进程默认只会启动一个单个ReduceTask如果处理的数据量过多，会导致性能较差，或者资源不足导致程序运行失败功能：每个分区就是一个ReduceTask进程，允许启动配置多个分区，多个ReduceTask通过多个分区来并行处理数据，通过分布式Reduce过程来解决资源和性能问题应用：判断ReduceTask处理的

2021-03-08 21:50:59 593

原创 MapReduce编程深入

MapReduce编程深入一、回顾MapReduce的功能以及应用场景Hadoop1.xHDFSMapReduce v1：分布式计算框架分布式程序分布式资源主从架构：JobTracker，TaskTackerHadoop2.xHDFSMapReduce v2：分布式编程模型一套API从逻辑上定义数据处理的过程YARN：分布式资源管理ResourceManagerNodeManager负责根据逻辑上代码定义的处理过程而使用资源去运行实现这个过程

2021-03-08 14:15:04 158

原创 MapReduce入门

MapReduce入门一、回顾HDFS架构分布式普通主从架构主：管理从：执行公平架构每个节点都是公平节点Zookeeper本质：将多台机器的文件系统从逻辑上合并为一个整体节点NameNode：主：管理管理集群：DataNode管理接客管理元数据DataNode：从：存储每个DataNode负责管理自己所在节点的文件系统负责接收NameNode的读写任务分配：数据写入DataNode所在的Linux文件系统的dfs.datanode.da

2021-03-06 23:36:20 145

原创 MapReduce分布式计算

一、MapReduce分布式计算1、MapReduce计算模型介绍1.1理解MapReduce思想 MapReduce思想在生活中处处可见。或多或少都成接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想，而不是自己原创。 Map负责"分"，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。 Reduc

2021-03-05 23:35:22 2078

原创 Mysql数据库

Mysql数据库1.登录MySQL数据库方式1：mysql -u用户名 -p密码mysql -u用户名 -p 回车输入密码方式2：mysql --host=ip地址 --user=用户名 --password=密码2、MySQL图形化开发工具-DataGripDataGrip连接Mysql[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TZiNRdUw-1614873125781)(https://gitee.com/TuNan86/mapdeport2/

2021-03-04 23:52:37 1700 4

原创《笔记1》HDFS深入及Hadoop HA

HDFS深入及Hadoop HA带图答疑QQ：2338247381一、复习基础课程大数据本质：就是利用一系列大数据软件工具开发程序对数据进行处理，从数据中提取相关价值信息大数据软件：Hadoop、Zookeeper、Hive、Spark、Flink类似于：Excel、Word数据：种类多，数据量大（传统的方式不行）处理：开发程序(java还是很重要的)Java为什么？大数据的大部分软件都是Java源代码开发的学习、维护使用Java语言开发数据处理程

2021-03-03 18:19:23 180 3

原创 HDFS分布式文件系统

HDFS分布式文件系统1.HDFS概述在现代的企业环境中，单机容量往往无法存储大量数据，需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。 HDFS(Hadoop Distributed File System)是Apache Hadoop项目的子项目。Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS 使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统.分布式文件系统解

2021-03-03 11:45:10 531

qq_43528451的博客