自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 【无标题】

毛兄弟

2022-07-28 19:05:38 84

原创 Hadoop中的压缩和解压缩

1.什么是压缩和解压缩压缩就是通过某种算法,将原始的文件变下,使原始的文件变小。解压就是将压缩后的文件变成原始文件的过程。2.hadoop当中的压缩和解压1.hadoop当中哪些过程需要用到压缩和解压?hdfs—>map—>shuffle—>reducemap端:压缩后的原始文件首先切成块,然后再解压作为输入文件输入给map端,等map端将数据处理完成后然后再压缩,...

2019-01-14 15:23:01 3220

原创 Hive中的join连接

内连接内连接查询的结果:两表的交集(公共部分)。隐式内连接语法:select 列名 , 列名 … from 表名1,表名2 where 表名1.列名 = 表名2.列名;select * from a,b where a.id = b.id;举例:select * from a,b where a.列名 = b.列名在产生两张表的笛卡尔积的数据后,通过条件筛选出正确的结果。显式内...

2019-01-06 22:25:28 292

原创 Hive中表之间的连接

join查询内连接查询什么是内连接查询?内连接查询就是查询两张表的交集部分。隐式内连接查询select * from a,b where a.id=b.id;显式内连接查询一般称为标准的内连接查询,用inner join 连接两张表。on接查询的条件。select * from a inner join b on a.id=b.id;外连接查询外连接查询又分为左外连接和右外连...

2019-01-06 22:19:41 1443

原创 Hive中排序常用的一些关键字的区别

order by全局排序,只有一个reducetask,数据量比较大的话排序会比较慢。sort by只对每个reduce内部的数据进行排序distribute by类似于分桶的功能,或者说MR当中的分区,主要是按照指定的字段,将数据划分到不同的reduce里面去。Cluster by相当于sort by+distribute by.如果order by排序的字段和distribu...

2019-01-06 10:53:32 2490

原创 Hive的基本操作

启动Hive第一种方式,直接进入bin目录下输入hive即可。第二种方式:第一步:后台启动hiveserver2服务端nohup hive --service hiveserver2 &第二步:在bin目录下输入beeline指令然后输出!connect jdbc:hive2://node03:10000连接到hive的客户端第三步:输入用户名密码即可进入数据库的操作...

2018-12-22 21:45:43 302

原创 Hive的学习笔记之基本概念

Hive是什么?Hive是基于Hadoop的一个数据仓库工具,可以将结构话的数据文件映射成一张表,Hive底层的数据存储用的是HDFS,数据的统计计算都是用的MapReduce,可以将Hive理解成一个MapReduce的工具,你写的Hql语句会翻译成mapreduce任务去执行。Hive的架构图用户接口:包括CLI、JDBC/ODBC、WebGUI。其中,CLI(command line...

2018-12-22 17:34:22 108

原创 MapReduce的排序操作

将以下进行排序:a 1a 9b 3a 7b 8b 10a 5a 9我要实现的效果如下:a 9a 9a 7a 5a 1b 10b 8b 3字母由小到大排列,数字由大到小排列。分析如下:因为两列都要进行排序比较,所以这个k1,v1,k2,v2,k3,v3应该如何设置?k1还是行偏移量,v1对应的是一行文本,我们可以将整体作为一个对象。定义成一个pairSort类...

2018-12-13 21:54:44 249

原创 MapReduce的分区操作

原始的数据如图所示:我要按照第六个字段的大小进行分区,大于15的分成一区,小于15的分成一区。实现的流程如下:首先,需要四个类,自定义的partition类,Mapper类,Reduce类和负责任务整体调度的partitionMain类。各个类的代码如下:自定义partitioner类里面设置了我们的分区的逻辑,即以15为分割线将数据进行分区。package com.legendl...

2018-12-13 15:11:59 1055

原创 MapReduce的入门程序-wordCount

需要定义三个类,jobMain类,Mapper类,Reducer类jobMain类这个类负责整体的协调运行package com.legendlee.wordCount;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoo...

2018-12-12 15:54:26 172

原创 HDFS的常用的JavaAPI操作

1.获取到hdfs文件系统有四种方式可以获取到package com.legendlee.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import org.apache.had...

2018-12-10 20:01:04 697

原创 Linux一些常用的命令

grep命令1.grep是什么grep 命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。格式: grep [option] pattern [file]可使用 —help 查看更多参数。grep如何使用grep一些常用的命令实例:ps -ef | grep sshd 查找指定 ssh 服务进程ps -ef | grep sshd | grep -...

2018-12-06 22:01:55 193

原创 Zookeeper集群环境的搭建

一.集群的环境的准备1.关闭集群服务器的防火墙service iptables stop设置开机不启动chkconfig iptables off2.更改集群服务器的主机名vim /etc/sysconfig/network将hostname改为node01,node02,node033.配置主机名和IP映射vim /etc/hosts注意:每个集群的服务器都要配置这...

2018-12-06 21:25:00 164

原创 VMware14上安装linux系统

1、创建一台虚拟机出来第一步:创建一台虚拟机出来2、为我们的虚拟机挂载操作系统3、开启我们的虚拟机,为我们的虚拟机进行安装操作系统4、配置虚拟机连接网络修改linux的mac地址修改mac地址配置文件需要启动我们的linux的虚拟机,然后更改mac地址的配置文件vim /etc/udev/rules.d/70-per...

2018-12-06 14:49:44 339

原创 scala中的模式匹配

1.什么是scala中的模式匹配?类似于java中的switch case语法,即对一个值进行条件判断,然后针对不同的条件,进行不同的处理。另外Scala还提供了样例类,对模式匹配进行了优化,可以快速进行匹配。2. 匹配字符串object MatchDemo1 { def main(args: Array[String]): Unit = { val array = Array...

2018-12-04 21:56:33 166

原创 scala基础学习--面向对象

1.面向对象之类构造器主构造器:Scala中的每个类都有一个主构造器,主构造器的参数直接放置类名后面,与类交织在一起.注意:主构造器会执行类中定义的所有语句package com.legendlee.oop.constructorclass Student(var n: String, var a: Int) { var name = n var age = a a = a...

2018-12-03 15:16:48 153

原创 scala基础学习笔记-变量,循环,函数,数组,集合

块表达式:可以将变量直接赋给块表达式(相当于一段代码块),其结果作为变量值返回object Demo01 { def main(args: Array[String]): Unit = { var a = 10 var b = 20 //块表达式 val result = { var num1 = a + b var num2 = a...

2018-12-01 10:09:33 188

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除