RZH_long-CSDN博客

原创 Flume的配置和使用

flume的安装比较简单，在以后的hadoop环境上安装一台发送到其他机器上去即可 tar -zxvf flume-ng-1.6.0-cdh5.14.0.tar.gz -C /export/servers/ cd /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/conf cp flume-env.sh.template flume-env.sh vimflume-env.sh export JAVA_HOME=/export/servers/...

2024-07-24 16:21:39 323

原创 HIVE的基本使用05(HSQL调优)

1.fetch抓取 select * from A;这种语句可以直接读取文件，不走MR程序会快很多；不走MR程序的情况：在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老版本hive默认是minimal，该属性修改为more以后，在全局查找、字段查找、limit查找等都不走mapreduce。设置conversion参数后再执行sql: hive (default)> set hive.fetch.task.

2021-12-20 23:11:29 1894

原创 HIVE的基本使用05(指定存储格式，在hive创建表那里提过，此处详细解释)

行存储的特点：查询满足条件的一整行数据的时候，列存储则需要去每个聚集的字段找到对应的每个列的值，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询的速度更快。列存储的特点：因为每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量；每个字段的数据类型一定是相同的，列式存储可以针对性的设计更好的设计压缩算法。 TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的； ORC和PARQUET是基于列式存储的（实际生产一般用这两种和sn...

2021-12-20 21:51:16 677

原创 HIVE的基本使用05(压缩参数的指定)

压缩格式jar包目录一览表压缩格式对应的编码/解码器 DEFLATE org.apache.hadoop.io.compress.DefaultCodec gzip org.apache.hadoop.io.compress.GzipCodec bzip2 org.apache.hadoop.io.compress.BZip2Codec

2021-12-20 21:41:08 468

原创 HIVE的基本使用05(自定义java函数UDF) demo

maven导入jar包 <repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository> </repositories> <dependencies> ...

2021-12-20 21:30:57 1196

原创 HIVE的基本使用04(数据查询，以及优化)

select的语法概述(掌握每个关键字的含义和使用): SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list [HAVING condition]] [CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY| ORDER BY col_list] ] ...

2021-12-20 21:23:20 187

原创 HIVE的基本使用03(数据插入导入导出)

--------------------------------------------数据导入-------------------------------------------------- 1.直接向分区表中插入数据（强烈不推荐使用，会调用MR程序，非常慢） insert into table score3 partition(month ='201807')values ('001','002','100'); 2.通过load方式加载数据 load data local inpath .

2021-12-15 22:42:39 272

原创 HIVE的基本使用02(表的创建，维护，加载数据)

-----------------------------创建数据库表语法(熟悉关键字)----------------------------------------- CREATE [EXTERNAL] TABLE[IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY(col_name data_t...

2021-12-15 22:29:58 325

原创 HIVE的基本使用01(连接hive,创建数据库)

--------------------------------------hive的交互:-------------------------------------------------- 1.Hive交互shell(不常用) cd/export/servers/hive-1.1.0-cdh5.14.0 bin/hive 2.第二种交互方式：Hive JDBC服务（一般后台启动输出日志到文件，常用）启动服务端，客户端进行连接。前台启动 cd /export/servers/hi..

2021-12-15 22:08:28 1384

原创 json字符串与java对象的互相转换

JSONObject 转 JSON 字符串 JSONObject jsonObject = new JSONObject(); jsonObject.put("name", "wjw"); jsonObject.put("age", 22); jsonObject.put("sex", "男"); jsonObject.put("school", "商职"); String jsonStr = JSONObject.toJSONString(jsonObject); System.out.pr..

2021-12-13 19:29:04 404

原创 hive基于hadoop安装Mysql存储元数据

1、解压hive cd /export/softwares tar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C ../servers/ 直接启动bin/hive cd ../servers/ cd hive-1.1.0-cdh5.14.0/ bin/hive hive> create database mytest; 缺点：多个地方安装hive后，每一个hive是拥有一套自己的元数据，大家的库、表就不统一；使用mysql共享hive元数据..

2021-12-07 22:51:15 280

原创 MR自定义分组获取TopN

package com.cn.demo_groupTopN; import org.apache.hadoop.io.WritableComparable; import org.apache.hadoop.io.WritableComparator; /** * 继承WritableComparator类，重写compare 方法相同的订单ID认为相同 */ public class MyGroupCompactor extends WritableComparator { /*.

2021-12-07 22:39:10 965

原创自定义OutputFormat

package com.cn.demo_outputformat; import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hado.

2021-11-30 20:09:06 730

原创自定义InputFormat

package com.cn.demo_xwjhb; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.BytesWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.mapreduce.InputSplit; import org.apache.hadoop.mapreduce.JobContext; import org.apa.

2021-11-30 20:02:36 182

原创 reduce端的join算法和map端的join算法

------------------------------------reduce端join------------------------------- package demo06.reducejoin; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Map.

2021-11-23 21:41:58 490

原创 hadoop的压缩方式snappy

文件压缩有两大好处，节约磁盘空间，加速数据在网络和磁盘上的传输在重新编译过hadoop的c源码后才可以用谷歌的snappy压缩。我们可以使用bin/hadoop checknative 来查看我们编译之后的hadoop支持的各种压缩，如果出现openssl为false，那么就在线安装一下依赖包 //查看压缩支持情况 bin/hadoop checknative //在线安装 yum install openssl-devel 这种压缩对应的java类压缩格式 ...

2021-11-23 20:08:45 2190

原创 hadoop分区

package demo04.flow; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Partitioner; /** * 分区继承于这个类，重写getPartition方法返回数字根据数字分到各个reduce,此处传入的是K2,V2 */ public class FlowPartion extends Partitioner<Text, FlowNum> { @Override .

2021-11-23 19:55:01 817

原创 hadoop按照上行流量进行排序

package demo05.flowOrder; import demo04.flow.FlowNum; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; /** * 排序和序列化要实现WritableComparable这个接口,重写compareTo和write，readFields方法.

2021-11-23 19:48:56 1293

原创 hadoop二次排序，自定义计数器

import org.apache.hadoop.io.WritableComparable; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; /** * 序列化和比较： * 序列化实现:Writable * 比较实现:Comparable * 既序列化又比较实现:WritableComparable 后面要加泛型 */ public class SortWritable i.

2021-11-21 12:39:38 709

原创 hadoop分区

package com.a.b.partion_demo; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Partitioner; public class MyPartioner extends Partitioner<Text,NullWritable> { @Override public in.

2021-11-21 12:35:33 653

原创 MR的单词计数小程序

----------------------------------主程序入口---------------------------------- package com.demo01.wordcount; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.I.

2021-11-16 20:28:49 1444

原创获取hadoop文件系统的5种方式

package com.cn.demo01; import org.apache.commons.io.IOUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; import org.junit.Test; import java.io.*; import jav.

2021-11-11 20:55:29 1854

原创 hdfs文件系统基础命令，高级命令，安全模式，压力测试

ls: -R 递归枚举 Usage:hdfs dfs -ls [-R] <args> mkdir: -P 创建父目录和子目录 Usage:hdfs dfs -mkdir [-p] <paths> moveFromLocal:从本地剪切文件到hdfs 注意大小写 Usage:hdfs dfs -moveFromLocal <localsrc> <dst> moveToLocal :从hdfs移动到系统，此命令还不支持 Usage:hdf...

2021-11-08 21:56:44 218

原创 hadoop三种运行环境以及standAlone环境的安装

apache版本的hadoop三种运行环境的介绍 1.standAlone：单机版的hadoop运行环境，所有都跑在一台环境上 2.伪分布式：主节点都在一台机器上，从节点分开到其他机器上，借助3台机器实现 3.完全分布式：主节点全部分散到不通的机器上 namenode active 占用一台机器 namenodestandBy占用一台机器 resourceManager active 占用一台机器 resoureceManagerstandby 占用一台机器 standAlone环境的h

2021-10-31 15:41:18 1660

原创 linux7.0磁盘挂载

一些概念：卷组：vg 卷：lv 卷里面放磁盘 vg/lv磁盘 Linux的目录挂载： Oracle挂载在vg上面，卷组下面可以添加卷。磁盘操作相关命令：添加硬盘（关机添加硬盘，另一种技术叫热插拔不用关机也可以添加硬盘） df -h lvdisplay当前所有逻辑卷 vgdisplay查看vg卷组的大小 pvgdisplay 物理卷，硬盘上的使用情况（没啥用）开始LVM扩容硬盘格式化：fdisk -l fdisk -l |grep '/dev'grep...

2021-10-28 21:40:54 321

原创 VMware在Wind10下的NAT联网配置

1.windows系统的防火墙这3个要允许。（如果不行可以把防火墙关闭qaq） 2.VMware服务要全部启动 3.VMnat8虚拟网卡匹配 4.VMware配置配置Vmware的Nat配置: DHCP自动分配地址配置（我的机器不知道为啥，需要先自动分配地址连一次网，再改成静态IP才会生效） VMware配置虚拟机的物理地址以及联网模式： 5.进入linux系统ctentos6.9配置网卡管理网卡的文件路径: cd /etc/udev/rules.d/70-persi

2021-10-28 21:39:26 610

原创 zookeeper的shell操作

连接zk: bin目录下执行脚本zkCli.sh quit退出; ------------------------------------------------------------------------------------ 创建节点： create [-s] [-e] path data acl -s : -e : create /abc helloworld 创建一个永久节点， create -s /bbb helloworld 创建永久的顺序节点 create -e /m

2021-10-28 21:19:51 955

原创 zookeeper的javaAPI使用

前提是 windows上host(域名解析文件)文件配置完成。C:\Windows\System32\drivers\etc 各台linux服务器和本机能互通。虚拟机zookeeper集权搭建完成并启动。 package cn.itcast_zk.demo01; import org.apache.curator.RetryPolicy; import org.apache.curator.RetrySleeper; import org.apache.curator.framework.Curat.

2021-10-28 21:16:34 344

空空如也

空空如也