自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 Hive-函数-UDF-UDTF

系统内置函数1.查看系统自带的函数show functions;2.显示自带的函数的用法desc function split;3.详细显示自带的函数的用法desc function extended split;自定义函数1.Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。2.当Hive提供的内置函数...

2019-09-27 18:14:02 208

原创 Hive-查询

目录基本查询(Select…From)全表和特定列查询列别名算术运算符常用函数Limit语句Where语句比较运算符(Between/In/ Is Null)Like和RLike逻辑运算符(And/Or/Not)分组Group By语句Having语句Join语句等值Join表的别名内连接左外连接右外连接满外连接...

2019-09-26 20:28:33 1096

原创 Hive-DML数据操作

数据导入向表中装载数据(Load)1.语法load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地加载数据到hive表;否则从HDFS...

2019-09-25 17:15:01 169

原创 Hive-DDL数据定义

创建数据库1)创建一个数据库 db_liun,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。create database db_liun;2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)create database if not exists db_liun;3)创建一个数据库,指定数据库在HD...

2019-09-24 22:10:10 137

原创 Hive-数据类型

基本数据类型 Hive数据类型 Java数据类型 长度 例子 tinyint byte 1byte有符号整数 20 smalint short 2byte有符号整数 ...

2019-09-23 22:45:04 174

原创 Hive-安装-元数据配置到mysql-hive命令和常用配置

Hive安装部署1.Hive安装及配置把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/修改apache-hive-1...

2019-09-21 23:20:26 314

原创 Hive-优缺点-架构-和数据库比较

Hive入门Hive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上Hive的优缺点优点...

2019-09-20 19:33:53 1882

原创 zookeeper-客户端命令和API应用

客户端命令行操作 命令基本语法 功能描述 help 显示所有操作命令 ls path [watch] 使用 ls 命令来查看当前znode中所包含的内容 ls2 path [watch] 查看当前节点数据并能看到更新次数等数据 ...

2019-09-20 17:44:33 144

原创 Zookeeper内部原理

选举机制1)半数机制:集群中半数以上机器存活,集群可用。所以Zookeeper适合安装奇数台服务器。2)Zookeeper虽然在配置文件中并没有指定Master和Slave。但是,Zookeeper工作时,是有一个节点为Leader,其他则为Follower,Leader是通过内部的选举机制临时产生的。以一个简单的例子来说明整个选举的过程。假设有五台服务器组成的Zookeeper集...

2019-09-18 17:16:51 224

原创 Zookeeper入门-分布式搭建

Zookeeper入门概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。特点1)Zookeeper:一个领导者(Leader),多个跟随者(Follower)组成的集群。2)集群中只要有半数以上节点存活,Zookeeper集群就能正常服务。3)全局数据一致:每个Server保存一份相同的数据副本,Client无论连接到哪个Ser...

2019-09-18 16:47:21 208

原创 Hadoop企业优化

——尚硅谷课程笔记MapReduce 跑的慢的原因MapReduce 程序效率的瓶颈在于两点:1.计算机性能CPU、内存、磁盘健康、网络2.I/O 操作优化(1)数据倾斜(2)Map和Reduce数设置不合理(3)Map运行时间太长,导致Reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)Spill次数过多(7)Merge次数过多...

2019-09-17 20:34:59 223

原创 hadoop-Yarn

——尚硅谷课程笔记Yarn资源调度器Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。Yarn基本架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。Yarn工作机制...

2019-09-17 19:51:34 443

原创 Hadoop数据压缩

——尚硅谷课程笔记Hadoop数据压缩概述压缩概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时,I/O操作、网络数据传输、 Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。 鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对...

2019-09-17 17:42:33 217

原创 hadoop-MapReduce-计数器应用-数据清洗(ETL)

——尚硅谷课程笔记计数器应用 Hadoop为每个作业维护若干内置计数器,以描述多项指标。例如,某些计数器记录已处理的字节数和记录数,使用户可监控已处理的输入数据量和已产生的输出数据量。1.计数器API (1)采用枚举的方式统计计数 enum MyCounter{MALFORORMED,NORMA...

2019-09-15 13:22:36 472

原创 hadoop-MapReduce-Join

——尚硅谷课程笔记Reduce Join Map端的主要工作:为来自不同表或文件的key/value对,打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。 Reduce端的主要工作:在Reduce端以连接字段作为key的分组已经完成,我们只需要在每一个分组当中将那些来源于不同文件的记录(在Map阶段已经打标志)分开,最...

2019-09-15 12:09:08 185

原创 hadoop-MapReduce-OutputFormat

——尚硅谷课程笔记OutputFormat接口实现类OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了 OutputFormat接口。下面几种常见的OutputFormat实现类。1.文本输出TextOutputFormat 默认的输出格式是TextOutputFormat,它把每条记录写为文本行。它的键和值可以是任意类型,...

2019-09-14 23:04:37 541

原创 MapTask、ReduceTask工作机制

——尚硅谷视频笔记MapTask工作机制(1)Read阶段:MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。 (2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。 (3)Collect收集阶段:在用户编写...

2019-09-12 22:27:29 479

原创 hadoop-MapReduce-shuffle机制

——尚硅谷视频笔记Shuffle机制Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。Partition分区1、问题引出要求将统计结果按照条件输出到不同文件中(分区)。比如:将统计结果按照手机归属地不同省份输出到不同文件中(分区)2、默认Partitioner分区public class HashPartitioner<K,...

2019-09-12 14:07:34 657

原创 笔记-hadoop-MapReduce-工作流程图

——尚硅谷视频笔记MapReduce工作流程map阶段reduce阶段shuffle机制流程详解上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下:1)MapTask收集我们的map()方法输出的kv对,放到内存缓冲区中2)从内存缓冲区不断溢出本地磁盘文件,可能...

2019-07-31 19:50:47 450

原创 笔记-hadoop-MapReduce-InputFormat

——尚硅谷视频笔记InputFormat数据输入切片与MapTask并行度决定机制MapTask并行度决定机制数据块:Block是HDFS物理上把数据分成一块一块。数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。FileInputFormat切片机制(1)源码中计算切片大小的公式Math.max(minSize, Ma...

2019-07-29 22:46:25 902

原创 笔记-hadoop-MapReduce

——尚硅谷视频笔记MapReduce核心思想1)分布式的运算程序往往需要分成至少2个阶段。2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。3)第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。4)MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段,如果用户的业务逻辑非...

2019-07-25 17:39:20 238

原创 笔记-hadoop-HDFS-DataNode工作机制

——尚硅谷课程整理DataNode工作机制DataNode工作机制,如图所示。1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。3)心跳是每3秒一次,心跳返回结果...

2019-07-23 17:04:59 226

原创 笔记-hadoop-HDFS-NameNode和SecondaryNameNode

——尚硅谷课程笔记整理NameNode和SecondaryNameNode工作机制思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。...

2019-07-22 20:52:08 423

原创 笔记-hadoop-HDFS的数据流

——尚硅谷视频整理HDFS写数据流程客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 NameNode返回是否可以上传。 客户端请求第一个 Block上传到哪几个DataNode服务器上。 NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。 客户端通过FS...

2019-07-22 19:49:17 139

原创 笔记-hadoop-HDFS客户端操作

HDFS客户端环境准备准备hadoop jar根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包解压到非中文路径(D:\hadoop-2.7.2)配置HADOOP_HOME环境变量HADOOP_HOMED:\hadoop-2.7.2配置Path环境变量%HADOOP_HOME%\bin;创建一个Maven工程eclipse创建HDFS工程导入相应的依赖pom....

2019-07-14 19:46:38 126

原创 笔记-hadoop-HDFS的shell常用命令

基本语法bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令dfs是fs的实现类。常用命令启动Hadoop集群start-dfs.shstart-yarn.sh-mkdir 在HDFS上创建目录 -p 创建多级目录hadoop fs -mkdir -p /user/liun/test-ls 显示目录信息hadoop fs -ls /user...

2019-07-14 15:06:22 190

原创 笔记-hadoop-集群时间同步

时间服务器配置(必须root用户)检查ntp是否安装rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.6p5-10.el6.centos.x86_64修改ntp配置文件vi /etc/ntp.conf修改内容如下:1.修改...

2019-07-13 15:42:21 137

原创 笔记-hadoop本地模式、伪分布式、分布式的搭建

目录hadoop运行环境搭建VM虚拟机安装centos,Linux系统配置安装Java和hadoopJAVA安装Hadoop安装hadoop本地模式本地模式grep案例本地模式Wordcount案例hadoop伪分布式搭建启动HDFS并运行MapReduce程序伪分布式下Wordcount案例启动YARN并运行MapReduce程序yarn下运行...

2019-07-11 20:52:41 370

原创 在Centos中搭建Jupyter Notebook(Python3)--笔记

系统环境:腾讯学生云,CentOS 7.5 64位 因为打算学习Python3,所以先安装Python3 首先要先安装依赖包 yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gcc makeyum install libffi-de...

2019-07-05 23:18:50 561

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除