2020年09月_小五家的二哈

原创 Sqoop导入数据到hive、hbase

在上一篇博文中，已经介绍过了sqoop的一些用法，把数据从数据库导入到hdfs。本篇将介绍如何从数据库导入到hive和hbase中。目录一级目录二级目录三级目录增量导入导入文件格式从数据库导入到HIVE直接导入到Hive导入到Hive的分区导出HDFS数据到MySQL一级目录二级目录三级目录增量导入增量导入的意思就是在原先导入的数据的基础上，追加新的数据进去。我们以下面的数据为例，分别是学生的id，姓名，生日和性别01 赵雷 1990-01-01 男02 钱电 1990-12-21 男

2020-09-29 18:11:05 1065

原创 Sqoop的安装与使用（导入数据到HDFS）

目录SqoopSqoop安装数据迁移导入表到HDFS通过where语句过滤导入表导入指定列query查询导入数据Sqoop用途Sqoop是一个用于在hadoop和关系数据库之间传输数据的工具。它可以将数据从RDBMS导入到HDFS。例如：HDFS、Hive、HBase。也可以从HDFS导出数据到RDBMS。Sqoop使用MapReduce导入和导出数据，提供并行操作和容错。Sqoop安装在安装Sqoop之前，确保已经安装了java、Hadoop、Zookeeper、HBase和Hive。如果还未装

2020-09-26 15:31:21 1883

原创 Hive与HBase的继承使用

Hive的特点是查询效率块，但是不易插入和修改；Hbase的特点是方便对大量的数据进行处理，所以为了提高我们的工作效率，把二者结合起来使用。Hive与Hbase继承使用场景将Hbase作为Hive的数据源，让Hbase支持类SQL操作；将Hive ETL数据存入HBase，便于快速查询；构建低延时的数据仓库。利用HBase的快速读写能力，实现数据实时查询。Hive与HBase的集成原理通过二者本身对外的API接口互相通信完成由Hive的lib目录中hive-hbase-handler-*.

2020-09-25 21:31:50 197

原创 phoenix配置安装

我这里用的是phoenix4.14.0版本。首先解压安装包，并改名：tar -zxvf apache-phoenix-4.14.0-cdh5.14.2-bin.tar.gz -C /optmv apache-phoenix-4.14.0-cdh5.14.2-bin/ phoenix修改hbase的hbase-site.xml文件：<property> <name>hbase.regionserver.wal.codec</name> <va

2020-09-25 20:32:32 198

原创 Hbase与NoSQL的关系、基础原理和表格操作

目录一、Hbase和NoSQL1.1、NoSQL特点1.2、NoSQL的基本概念1.2.1、三大基石1.2.2、索引和查询1.2.3、MapReduce和Sharding1.3、NoSQL的分类1.3.1、NoSQL和BI、大数据的关系二、Hbase2.1、Hbase物理架构2.2、Hbase逻辑架构-ROW2.3、Hbase架构的特点三、Hbase Shell即操作3.1、Hbase的基本命令3.1.1表3.1.2行3.1.3列蔟3.2用户权限3.3将文档导入Hbase四、总结一、Hbase和NoSQL

2020-09-24 22:36:55 2514

原创 HIve的内置函数（字符、日期、集合条件等，附带Hive调优工具）

目录一级目录二级目录三级目录字符函数类型转换和数学函数类型转换函数数学函数日期函数集合函数一级目录二级目录三级目录字符函数concat(string|binary A, string|binary B…)对二进制字节码或字符串按次序进行拼接，返回string。select concat('a','b','c');abcinstr(string str, string substr)查找字符串str中子字符串substr出现的位置，返回intselect instr('abc','

2020-09-22 23:16:42 805

原创 Hive UDF自定义函数(临时和永久的区别)

Hive中虽然自带了一些函数，例如max()、avg()、sum()等，但有时候这些函数可能无法满足我们的需要，这时候就可以通过自定义UDF来进行扩展。开发流程UDF的开发流程基本有以下步骤：继承UDF类或者GenericUDF类；重写evaluate()方法并实现函数逻辑；打jar包；上传到hdfs；使用jar创建临时或者永久函数；调用函数。UDF实现在重写之前，我们首先建立一个Maven工程。具体的方法大家可以参考我以前的一篇文章：Hadoop的环境变量配置及与java的交互

2020-09-22 20:03:16 1928

原创 HIve的日期函数（year/month/week）

目录current_datecurrent_date拓展datediff和pmod例题current_dateHive 中可识别的日期格式有两种：yyyy-MM-dd HH:mm:ssyyyy-MM-dd例如：2020-09-21在Hive命令行中，我们可以通过current_date查看当前日期：select current_date;current_date拓展只求当前年：select year(current_date);示例：只求当前月：select month

2020-09-21 17:24:55 20548 1

原创 Hive窗口函数（排序、聚合、分析）

排序row_number()create table student(id string,class int,score int,sum int)row format delimitedfields terminated by ','lines terminated by '\n';load data local inpath '/opt/student.txt'into table student;select *,row_number()over(partition by c

2020-09-20 09:18:33 2178

原创 Hive高阶语句（Load、Insert、排序、聚合运算）

我们在前面的文章中介绍了Hive的基础语法和高阶查询，本篇将继续带大家学习Hive的高阶语句。目录一级目录二级目录三级目录装载数据：Loadinsert插入多插入插入到分区插入或导出到文件数据交换一级目录二级目录三级目录装载数据：Load我们在前面的文章中也有使用过load的案例，这里再详细给大家介绍一下。Load用于在Hive中移动数据，可以实现数据的导入，上传。语法格式：load data [local] inpath ‘路径’ insert [overwrite] into table

2020-09-18 23:56:49 1362

原创 Hive基础学习和高级查询（视图、select、join）

本篇文章接续前一篇文章，如对本篇内容有不理解的地方可以参考上一篇博文：Hive学习。目录视图视图概述视图操作建表高阶语句高级查询select关联查询joinHive的集合操作视图有学过SQL的小伙伴相信对视图这一概念并不陌生。事实上，Hive中的视图和SQL中视图的概念作用等基本一致，下面也见到介绍一下这一概念。视图概述通过隐藏子查询、连接和函数来简化查询的逻辑结构；它是一个虚拟表，从真实表中选取数据；只保存定义，不保存数据；如果删除或更改基础表，则查询视图会失败；视图是只读的，不能插入

2020-09-17 23:23:24 2186

原创 Hive命令行的应用（增删改查）

目录一级目录二级目录三级目录前言Hive数据类型Hive的元数据结构Hive指令分区分桶补充一级目录二级目录三级目录前言本篇博文主要演示一下在Hive命令行进行增删改查的一系列指令。Hive 的命令和SQL语句有许多相似之处，如果在这之前有过SQL的基础，那么Hive也会更加容易上手。本文共分三个部分。第一部分会为大家介绍一下Hive的数据类型；第二部分为Hive的元数据结构；第三部分则为Hive的一些指令。我所使用的Hive版本是1.1.0版本，大家可以根据自己版本做相应的参考。Hive数据

2020-09-16 19:35:05 2000 1

原创 Hive入门介绍

目录简介优点和特点元数据管理命令窗口模式结语简介Hive是基于Hadoop的一个数据仓库。可以将结构化的文件映射为一张数据库表，并提供简单的SQL查询功能。它的指令和sql十分类似。如果有SQL经验，学起来会更加轻松。Hive可以将SQL语句转化为MapReduce任务进行运行。优点和特点提供了一个简单的优化模型；HQL类SQL语法，简化了MR的开发；支持在不同的计算框架上运行；支持在HDFS和HBase上临时查询数据；支持用户自定义函数、格式；成熟的JDBC和ODBC驱动程序，用于ET

2020-09-15 22:00:18 323

原创 Zookeeper的数据结构和命令

目录简介zookeeper数据结构zookeeper的角色zookeeper客户端命令结语简介Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。zookeeper由文件系统和通知机制组成：zookeeper=文件系统+通知机制。zookeeper从设计模式上来看是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册。一旦数据的状态发生变化，zookeeper就将负责通知已经在zookeeper上注册的那些观察者做出相

2020-09-15 19:28:30 217

原创 Yarn工作原理

基本架构Yarn的架构是master/slaves的主从架构master:ResourceManager->全局资源管理负责集群全局统一的资源管理、调度、分配slave:NodeManager->节点资源管理器启动了NodeManager进程的节点负责管理节点的资源及使用情况Yarn核心组件：包括ResouceManager和NodeManagerApplicatonMaster:每一个job产生一个ApplicationMaster，方便管理Container：每

2020-09-15 18:21:38 1812

原创 Hive的环境搭建

1、首先解压安装包到指定目录：tar -zxvf hive-1.1.0-cdh5.14.2.tar.gz -C /opt/2、到安装目录下，对hive文件重命名以方便调用：mv hive-1.1.0-cdh5.14.2/ hive3、进入到hive/lib目录上传jar包：mysql-connector-java-5.1.0-bin.jar在hive目录下创建一个文件夹：warehouse4、进入到hive/conf目录，对文件进行重命名：mv hive-env.sh.template

2020-09-14 18:27:18 93

原创 HBase的安装

Hbase是hadoop领域的数据库，他是一种面向列存储的列式数据库。列式数据库是一张不规则的表，每行属性又大量的null，但是null并不占用存储空间，所以表可以设计的很稀疏。Hbase的列是不能脱离列蔟独立存在的，列蔟是单独存储一系列列的文件。安装在安装hbase之前，我们要确保已经安装了hadoop，如果只是安装单机版的hbase，zookeeper使用hbase内置的即可。这里我使用的是hadoop2.6.0和hbase1.2.0第一步：解压安装包到指定目录，对解压后的文件重命名，我这里

2020-09-12 11:11:57 201

原创 MapReduce学习笔记：Map端实现文件join

实现在Map端文件的join，不建立Reduce端，用Map直接实现读写。这里有两份文件：一个是学生信息：2016001,Join2016002,Abigail2016003,Abby2016004,Alexandra2016005,Cathy2016006,Katherine一个是学生成绩：2016001,YY,602016001,SX,882016001,YW,912016002,SX,772016002,YW,33Student类：首先建立一个声明类，用来声明我们所需要

2020-09-12 00:47:26 119

原创 MapReduce:分布式计算框架

MapReduce的思想和特点思想：分而治之：简化并行计算的编程模型；构建抽象模型：Map和Reduce：Map是指映射，Reduce就是规约。在下文我会介绍一下这二者的关系；隐藏系统层细节。特点：优点：易于编程、可扩展性、高容错性、高吞吐量。高容错性、高吞吐量其实也是Hadoop的特点，而也正因为这两点，hadoop引入了MapReduce计算框架；缺点：难以实时计算、不适合流式计算。实现方式MapReduce的工作方式是，当我们想它提交一个计算作业时它会首先进行split，按

2020-09-10 22:35:37 190

原创 Hadoop高可用HA搭建

高可用搭建一、修改配置文件core-site.xml文件配置hdfs-site.xml配置yarn.site.xml配置二、启动在搭建HA之前需要先把Hadoop以及zookeeper搭建完成，具体的可参考前面的文章一、修改配置文件core-site.xml文件配置1、指定hdfs的nameservice为ns，ns就是nameservice的缩写；2、指定zookeeper的地址；<configuration><!-- 指定hdfs的nameservice为ns --&gt

2020-09-08 17:19:52 356

原创 hadoop关于Zookeeper的安装及配置

作用Zookeeper是用来管理集群的，加强集群的稳定性、持续性、有序性，提高集群的工作效率。安装这里我是用三台虚拟机搭建的集群。1、上传zookeeper安装包到虚拟机上，进行解压：我这里解压到了opt目录下：为了方便调用，这里先改下名，然后修改环境变量。2、环境变量及文件配置环境变量：vi /etc/profileexport ZK_HOME=/opt/zkperexport PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$HADOOP_HOM

2020-09-05 18:38:11 412

原创 hadoop时区同步

实现时区同步1、下载安装包在hadoop集群中下载ntp安装包yum install -y ntp2、文件配置】打开etc下的ntp.conf文件，进入配置，三台机器都要配置添加一行，这里填的是每台机器的IP地址restrict 192.168.136.30 nomodify notrap nopeer noquery然后释放下面的restrict,把默认的地址改成本机的地址把下面的四行server都注释掉，在下面添加两行：注意：除了设的主机为127.127.1.0外，其他两台

2020-09-05 16:56:04 256

原创 Hadoop集群搭建

一、集群搭建1、虚拟机克隆首先克隆两台虚拟机，克隆虚拟就需要在主虚拟机关机状态下进行克隆，克隆完成后修改三台虚拟机的主机名：格式：hostnamectl set-hostname 新主机名设置完成后可以通过hostname 查看当前的主机名设置是否成功设置完成后可以重新登录一下，这样主机名就更新完成了。2、添加互信既然要搭建集群，那么互信是必不可少的。在hosts中添加三个主机名：,三台虚拟机的内容是一样的，注意各自的ip地址和主机名：vi /etc/hosts配置完成后，生成秘钥

2020-09-05 16:11:24 187

原创 Hadoop的环境变量配置及与java的交互

本次配置使用的是Hadoop2.6.0和jdk1.8.0环境变量配置第一步：在我的电脑中，打开高级系统设置，进入环境变量第二步：在系统变量中新建一个HADOOP_HOME，输入变量名和变量值，变量值是安装的hadoop文件路径第三步：找到系统变量中的Path变量，打开，在下方新建两个，输入hadoop文件下的bin和sbin两个目录。注：bin目录主要是用来执行文件，sbin是启动hadoop的。%HADOOP_HOME%\bin%HADOOP_HOME%\sbin完成后

2020-09-04 17:05:08 910

原创 Hadoop伪分布式配置

Hadoop在配置Hadoop之前我们先来了解一下什么是Hadoop。它是一种可靠的、可伸缩的、分布式计算的开元软件，是一个框架、允许跨越计算机集群的大数据集处理，使用简单的编程模型。可从单个服务器扩展到几千台主机，每个节点提供了计算和存储的功能，而不是依赖高可用性的机器，它是依赖于应用层面上的实现。四大特征：Volumn：体量大Velocity：速度快Variaty：样式多Value：价值密度低。所谓价值密度低是指数据量越大，有用的价值信息就越少。分布式：由分布在不同主机上的继承（程

2020-09-03 18:14:56 595

原创 Logstash 基础学习

Logstash简介具备实时数据传输能力的管道支持多种数据源输入；支持多种guolvq；支持多种数据输出目的地；-在ELK中作为日志收集器Logstash安装首先对安装包进行解压，安装到指定的路径：tar -zxvf logstash-6.2.2.tar.gz -C /opt/安装成功后，重新命名，方便调用，进入到logstash目录下，进行测试，看是否安装成功：bin/logstash -e 'input{ stdin{} } output{ stdout{} }'测试程序

2020-09-02 14:37:38 191

qq_43012693的博客