liu_1221-CSDN博客

原创 Hive-函数-UDF-UDTF

系统内置函数1．查看系统自带的函数show functions;2．显示自带的函数的用法desc function split;3．详细显示自带的函数的用法desc function extended split;自定义函数1．Hive 自带了一些函数，比如：max/min等，但是数量有限，自己可以通过自定义UDF来方便的扩展。2．当Hive提供的内置函数...

2019-09-27 18:14:02 283

原创 Hive-查询

目录基本查询（Select…From）全表和特定列查询列别名算术运算符常用函数Limit语句Where语句比较运算符（Between/In/ Is Null）Like和RLike逻辑运算符（And/Or/Not）分组Group By语句Having语句Join语句等值Join表的别名内连接左外连接右外连接满外连接...

2019-09-26 20:28:33 1270

原创 Hive-DML数据操作

数据导入向表中装载数据（Load）1．语法load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)];（1）load data:表示加载数据（2）local:表示从本地加载数据到hive表；否则从HDFS...

2019-09-25 17:15:01 225

原创 Hive-DDL数据定义

创建数据库1）创建一个数据库 db_liun，数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。create database db_liun;2）避免要创建的数据库已经存在错误，增加if not exists判断。（标准写法）create database if not exists db_liun;3）创建一个数据库，指定数据库在HD...

2019-09-24 22:10:10 181

原创 Hive-数据类型

基本数据类型 Hive数据类型 Java数据类型长度例子 tinyint byte 1byte有符号整数 20 smalint short 2byte有符号整数 ...

2019-09-23 22:45:04 230

原创 Hive-安装-元数据配置到mysql-hive命令和常用配置

Hive安装部署1．Hive安装及配置把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/修改apache-hive-1...

2019-09-21 23:20:26 360

原创 Hive-优缺点-架构-和数据库比较

Hive入门Hive：由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序1）Hive处理的数据存储在HDFS2）Hive分析数据底层的实现是MapReduce3）执行程序运行在Yarn上Hive的优缺点优点...

2019-09-20 19:33:53 2040

原创 zookeeper-客户端命令和API应用

客户端命令行操作命令基本语法功能描述 help 显示所有操作命令 ls path [watch] 使用 ls 命令来查看当前znode中所包含的内容 ls2 path [watch] 查看当前节点数据并能看到更新次数等数据 ...

2019-09-20 17:44:33 203

原创 Zookeeper内部原理

选举机制1）半数机制：集群中半数以上机器存活，集群可用。所以Zookeeper适合安装奇数台服务器。2）Zookeeper虽然在配置文件中并没有指定Master和Slave。但是，Zookeeper工作时，是有一个节点为Leader，其他则为Follower，Leader是通过内部的选举机制临时产生的。以一个简单的例子来说明整个选举的过程。假设有五台服务器组成的Zookeeper集...

2019-09-18 17:16:51 276

原创 Zookeeper入门-分布式搭建

Zookeeper入门概述Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。特点1）Zookeeper：一个领导者（Leader），多个跟随者（Follower）组成的集群。2）集群中只要有半数以上节点存活，Zookeeper集群就能正常服务。3）全局数据一致：每个Server保存一份相同的数据副本，Client无论连接到哪个Ser...

2019-09-18 16:47:21 257

原创 Hadoop企业优化

——尚硅谷课程笔记MapReduce 跑的慢的原因MapReduce 程序效率的瓶颈在于两点：1．计算机性能CPU、内存、磁盘健康、网络2．I/O 操作优化（1）数据倾斜（2）Map和Reduce数设置不合理（3）Map运行时间太长，导致Reduce等待过久（4）小文件过多（5）大量的不可分块的超大文件（6）Spill次数过多（7）Merge次数过多...

2019-09-17 20:34:59 290

原创 hadoop-Yarn

——尚硅谷课程笔记Yarn资源调度器Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。Yarn基本架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。Yarn工作机制...

2019-09-17 19:51:34 522

原创 Hadoop数据压缩

——尚硅谷课程笔记Hadoop数据压缩概述压缩概述压缩技术能够有效减少底层存储系统（HDFS）读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时，I/O操作、网络数据传输、 Shuffle和Merge要花大量的时间，尤其是数据规模很大和工作负载密集的情况下，因此，使用数据压缩显得非常重要。鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源，数据压缩对...

2019-09-17 17:42:33 274

原创 hadoop-MapReduce-计数器应用-数据清洗（ETL）

——尚硅谷课程笔记计数器应用 Hadoop为每个作业维护若干内置计数器，以描述多项指标。例如，某些计数器记录已处理的字节数和记录数，使用户可监控已处理的输入数据量和已产生的输出数据量。1．计数器API （1）采用枚举的方式统计计数 enum MyCounter{MALFORORMED,NORMA...

2019-09-15 13:22:36 533

原创 hadoop-MapReduce-Join

——尚硅谷课程笔记Reduce Join Map端的主要工作：为来自不同表或文件的key/value对，打标签以区别不同来源的记录。然后用连接字段作为key，其余部分和新加的标志作为value，最后进行输出。 Reduce端的主要工作：在Reduce端以连接字段作为key的分组已经完成，我们只需要在每一个分组当中将那些来源于不同文件的记录(在Map阶段已经打标志)分开，最...

2019-09-15 12:09:08 246

原创 hadoop-MapReduce-OutputFormat

——尚硅谷课程笔记OutputFormat接口实现类OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了 OutputFormat接口。下面几种常见的OutputFormat实现类。1．文本输出TextOutputFormat 默认的输出格式是TextOutputFormat，它把每条记录写为文本行。它的键和值可以是任意类型，...

2019-09-14 23:04:37 627

原创 MapTask、ReduceTask工作机制

——尚硅谷视频笔记MapTask工作机制（1）Read阶段：MapTask通过用户编写的RecordReader，从输入InputSplit中解析出一个个key/value。（2）Map阶段：该节点主要是将解析出的key/value交给用户编写map()函数处理，并产生一系列新的key/value。（3）Collect收集阶段：在用户编写...

2019-09-12 22:27:29 550

原创 hadoop-MapReduce-shuffle机制

——尚硅谷视频笔记Shuffle机制Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle。Partition分区1、问题引出要求将统计结果按照条件输出到不同文件中（分区）。比如：将统计结果按照手机归属地不同省份输出到不同文件中（分区）2、默认Partitioner分区public class HashPartitioner<K,...

2019-09-12 14:07:34 742

原创笔记-hadoop-MapReduce-工作流程图

——尚硅谷视频笔记MapReduce工作流程map阶段reduce阶段shuffle机制流程详解上面的流程是整个MapReduce最全工作流程，但是Shuffle过程只是从第7步开始到第16步结束，具体Shuffle过程详解，如下：1）MapTask收集我们的map()方法输出的kv对，放到内存缓冲区中2）从内存缓冲区不断溢出本地磁盘文件，可能...

2019-07-31 19:50:47 563

原创笔记-hadoop-MapReduce-InputFormat

——尚硅谷视频笔记InputFormat数据输入切片与MapTask并行度决定机制MapTask并行度决定机制数据块：Block是HDFS物理上把数据分成一块一块。数据切片：数据切片只是在逻辑上对输入进行分片，并不会在磁盘上将其切分成片进行存储。FileInputFormat切片机制（1）源码中计算切片大小的公式Math.max(minSize, Ma...

2019-07-29 22:46:25 1004

原创笔记-hadoop-MapReduce

——尚硅谷视频笔记MapReduce核心思想1）分布式的运算程序往往需要分成至少2个阶段。2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。4）MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段，如果用户的业务逻辑非...

2019-07-25 17:39:20 306

原创笔记-hadoop-HDFS-DataNode工作机制

——尚硅谷课程整理DataNode工作机制DataNode工作机制，如图所示。1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。2）DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。3）心跳是每3秒一次，心跳返回结果...

2019-07-23 17:04:59 291

原创笔记-hadoop-HDFS-NameNode和SecondaryNameNode

——尚硅谷课程笔记整理NameNode和SecondaryNameNode工作机制思考：NameNode中的元数据是存储在哪里的？首先，我们做个假设，如果存储在NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。...

2019-07-22 20:52:08 481

原创笔记-hadoop-HDFS的数据流

——尚硅谷视频整理HDFS写数据流程客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。 NameNode返回是否可以上传。客户端请求第一个 Block上传到哪几个DataNode服务器上。 NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。客户端通过FS...

2019-07-22 19:49:17 195

原创笔记-hadoop-HDFS客户端操作

HDFS客户端环境准备准备hadoop jar根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包解压到非中文路径（D:\hadoop-2.7.2）配置HADOOP_HOME环境变量HADOOP_HOMED:\hadoop-2.7.2配置Path环境变量%HADOOP_HOME%\bin;创建一个Maven工程eclipse创建HDFS工程导入相应的依赖pom....

2019-07-14 19:46:38 190

原创笔记-hadoop-HDFS的shell常用命令

基本语法bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令dfs是fs的实现类。常用命令启动Hadoop集群start-dfs.shstart-yarn.sh-mkdir 在HDFS上创建目录 -p 创建多级目录hadoop fs -mkdir -p /user/liun/test-ls 显示目录信息hadoop fs -ls /user...

2019-07-14 15:06:22 255

原创笔记-hadoop-集群时间同步

时间服务器配置（必须root用户）检查ntp是否安装rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.6p5-10.el6.centos.x86_64修改ntp配置文件vi /etc/ntp.conf修改内容如下：1.修改...

2019-07-13 15:42:21 182

原创笔记-hadoop本地模式、伪分布式、分布式的搭建

目录hadoop运行环境搭建VM虚拟机安装centos，Linux系统配置安装Java和hadoopJAVA安装Hadoop安装hadoop本地模式本地模式grep案例本地模式Wordcount案例hadoop伪分布式搭建启动HDFS并运行MapReduce程序伪分布式下Wordcount案例启动YARN并运行MapReduce程序yarn下运行...

2019-07-11 20:52:41 474

原创在Centos中搭建Jupyter Notebook（Python3）--笔记

系统环境：腾讯学生云，CentOS 7.5 64位因为打算学习Python3，所以先安装Python3 首先要先安装依赖包 yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gcc makeyum install libffi-de...

2019-07-05 23:18:50 623

liu_1221的博客