自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 Flume的配置和使用

flume的安装比较简单,在以后的hadoop环境上安装一台发送到其他机器上去即可 tar -zxvf flume-ng-1.6.0-cdh5.14.0.tar.gz -C /export/servers/ cd /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/conf cp flume-env.sh.template flume-env.sh vimflume-env.sh export JAVA_HOME=/export/servers/...

2024-07-24 16:21:39 323

原创 HIVE的基本使用05(HSQL调优)

1.fetch抓取 select * from A;这种语句可以直接读取文件,不走MR程序会快很多; 不走MR程序的情况: 在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走mapreduce。 设置conversion参数后再执行sql: hive (default)> set hive.fetch.task.

2021-12-20 23:11:29 1894

原创 HIVE的基本使用05(指定存储格式,在hive创建表那里提过,此处详细解释)

行存储的特点:查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。 列存储的特点:因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量;每个字段的数据类型一定是相同的,列式存储可以针对性的设计更好的设计压缩算法。 TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的; ORC和PARQUET是基于列式存储的(实际生产一般用这两种和sn...

2021-12-20 21:51:16 677

原创 HIVE的基本使用05(压缩参数的指定)

压缩格式jar包目录一览表 压缩格式 对应的编码/解码器 DEFLATE org.apache.hadoop.io.compress.DefaultCodec gzip org.apache.hadoop.io.compress.GzipCodec bzip2 org.apache.hadoop.io.compress.BZip2Codec

2021-12-20 21:41:08 468

原创 HIVE的基本使用05(自定义java函数UDF) demo

maven导入jar包 <repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository> </repositories> <dependencies> ...

2021-12-20 21:30:57 1196

原创 HIVE的基本使用04(数据查询,以及优化)

select的语法概述(掌握每个关键字的含义和使用): SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list [HAVING condition]] [CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY| ORDER BY col_list] ] ...

2021-12-20 21:23:20 187

原创 HIVE的基本使用03(数据插入导入导出)

--------------------------------------------数据导入-------------------------------------------------- 1.直接向分区表中插入数据(强烈不推荐使用,会调用MR程序,非常慢) insert into table score3 partition(month ='201807')values ('001','002','100'); 2.通过load方式加载数据 load data local inpath .

2021-12-15 22:42:39 272

原创 HIVE的基本使用02(表的创建,维护,加载数据)

-----------------------------创建数据库表语法(熟悉关键字)----------------------------------------- CREATE [EXTERNAL] TABLE[IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY(col_name data_t...

2021-12-15 22:29:58 325

原创 HIVE的基本使用01(连接hive,创建数据库)

--------------------------------------hive的交互:-------------------------------------------------- 1.Hive交互shell(不常用) cd/export/servers/hive-1.1.0-cdh5.14.0 bin/hive 2.第二种交互方式:Hive JDBC服务(一般后台启动输出日志到文件,常用) 启动服务端,客户端进行连接。 前台启动 cd /export/servers/hi..

2021-12-15 22:08:28 1384

原创 json字符串与java对象的互相转换

JSONObject 转 JSON 字符串 JSONObject jsonObject = new JSONObject(); jsonObject.put("name", "wjw"); jsonObject.put("age", 22); jsonObject.put("sex", "男"); jsonObject.put("school", "商职"); String jsonStr = JSONObject.toJSONString(jsonObject); System.out.pr..

2021-12-13 19:29:04 404

原创 hive基于hadoop安装Mysql存储元数据

1、解压hive cd /export/softwares tar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C ../servers/ 直接启动bin/hive cd ../servers/ cd hive-1.1.0-cdh5.14.0/ bin/hive hive> create database mytest; 缺点:多个地方安装hive后,每一个hive是拥有一套自己的元数据,大家的库、表就不统一; 使用mysql共享hive元数据..

2021-12-07 22:51:15 280

原创 MR自定义分组获取TopN

package com.cn.demo_groupTopN; import org.apache.hadoop.io.WritableComparable; import org.apache.hadoop.io.WritableComparator; /** * 继承WritableComparator类,重写compare 方法 相同的订单ID认为相同 */ public class MyGroupCompactor extends WritableComparator { /*.

2021-12-07 22:39:10 965

原创 自定义OutputFormat

package com.cn.demo_outputformat; import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hado.

2021-11-30 20:09:06 730

原创 自定义InputFormat

package com.cn.demo_xwjhb; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.BytesWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.mapreduce.InputSplit; import org.apache.hadoop.mapreduce.JobContext; import org.apa.

2021-11-30 20:02:36 182

原创 reduce端的join算法和map端的join算法

------------------------------------reduce端join------------------------------- package demo06.reducejoin; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Map.

2021-11-23 21:41:58 490

原创 hadoop的压缩方式snappy

文件压缩有两大好处,节约磁盘空间,加速数据在网络和磁盘上的传输 在重新编译过hadoop的c源码后才可以用谷歌的snappy压缩。 我们可以使用bin/hadoop checknative 来查看我们编译之后的hadoop支持的各种压缩,如果出现openssl为false,那么就在线安装一下依赖包 //查看压缩支持情况 bin/hadoop checknative //在线安装 yum install openssl-devel 这种压缩对应的java类 压缩格式 ...

2021-11-23 20:08:45 2190

原创 hadoop分区

package demo04.flow; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Partitioner; /** * 分区继承于这个类,重写getPartition方法返回数字根据数字分到各个reduce,此处传入的是K2,V2 */ public class FlowPartion extends Partitioner<Text, FlowNum> { @Override .

2021-11-23 19:55:01 817

原创 hadoop按照上行流量进行排序

package demo05.flowOrder; import demo04.flow.FlowNum; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; /** * 排序和序列化要实现WritableComparable这个接口,重写compareTo和write,readFields方法.

2021-11-23 19:48:56 1293

原创 hadoop二次排序,自定义计数器

import org.apache.hadoop.io.WritableComparable; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; /** * 序列化和比较: * 序列化实现:Writable * 比较实现:Comparable * 既序列化又比较实现:WritableComparable 后面要加泛型 */ public class SortWritable i.

2021-11-21 12:39:38 709

原创 hadoop分区

package com.a.b.partion_demo; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Partitioner; public class MyPartioner extends Partitioner<Text,NullWritable> { @Override public in.

2021-11-21 12:35:33 653

原创 MR的单词计数小程序

----------------------------------主程序入口---------------------------------- package com.demo01.wordcount; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.I.

2021-11-16 20:28:49 1444

原创 获取hadoop文件系统的5种方式

package com.cn.demo01; import org.apache.commons.io.IOUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; import org.junit.Test; import java.io.*; import jav.

2021-11-11 20:55:29 1854

原创 hdfs文件系统基础命令,高级命令,安全模式,压力测试

ls: -R 递归枚举 Usage:hdfs dfs -ls [-R] <args> mkdir: -P 创建父目录和子目录 Usage:hdfs dfs -mkdir [-p] <paths> moveFromLocal:从本地剪切文件到hdfs 注意大小写 Usage:hdfs dfs -moveFromLocal <localsrc> <dst> moveToLocal :从hdfs移动到系统,此命令还不支持 Usage:hdf...

2021-11-08 21:56:44 218

原创 hadoop三种运行环境以及standAlone环境的安装

apache版本的hadoop三种运行环境的介绍 1.standAlone:单机版的hadoop运行环境,所有都跑在一台环境上 2.伪分布式:主节点都在一台机器上,从节点分开到其他机器上,借助3台机器实现 3.完全分布式:主节点全部分散到不通的机器上 namenode active 占用一台机器 namenodestandBy占用一台机器 resourceManager active 占用一台机器 resoureceManagerstandby 占用一台机器 standAlone环境的h

2021-10-31 15:41:18 1660

原创 linux7.0磁盘挂载

一些概念: 卷组:vg 卷:lv 卷里面放磁盘 vg/lv磁盘 Linux的目录挂载: Oracle挂载在vg上面,卷组下面可以添加卷。 磁盘操作相关命令: 添加硬盘(关机添加硬盘,另一种技术叫热插拔不用关机也可以添加硬盘) df -h lvdisplay当前所有逻辑卷 vgdisplay查看vg卷组的大小 pvgdisplay 物理卷,硬盘上的使用情况(没啥用) 开始LVM扩容 硬盘格式化:fdisk -l fdisk -l |grep '/dev'grep...

2021-10-28 21:40:54 321

原创 VMware在Wind10下的NAT联网配置

1.windows系统的防火墙这3个要允许。(如果不行可以把防火墙关闭qaq) 2.VMware服务要全部启动 3.VMnat8虚拟网卡匹配 4.VMware配置 配置Vmware的Nat配置: DHCP自动分配地址配置(我的机器不知道为啥,需要先自动分配地址连一次网,再改成静态IP才会生效) VMware配置虚拟机的物理地址以及联网模式: 5.进入linux系统ctentos6.9配置网卡 管理网卡的文件路径: cd /etc/udev/rules.d/70-persi

2021-10-28 21:39:26 610

原创 zookeeper的shell操作

连接zk: bin目录下执行脚本zkCli.sh quit退出; ------------------------------------------------------------------------------------ 创建节点: create [-s] [-e] path data acl -s : -e : create /abc helloworld 创建一个永久节点, create -s /bbb helloworld 创建永久的顺序节点 create -e /m

2021-10-28 21:19:51 955

原创 zookeeper的javaAPI使用

前提是 windows上host(域名解析文件)文件配置完成。C:\Windows\System32\drivers\etc 各台linux服务器和本机能互通。 虚拟机zookeeper集权搭建完成并启动。 package cn.itcast_zk.demo01; import org.apache.curator.RetryPolicy; import org.apache.curator.RetrySleeper; import org.apache.curator.framework.Curat.

2021-10-28 21:16:34 344

原创 zookeeper安装

关于apache相关软件的安装包:a'paparchive.apache.org/dist/ 1.解压安装包: tar -zxvf 压缩包 -C 目标路径 2.创建目录:mkdir -p /export/servers/zookeeper-3.4.9/zkdatas 3.拷贝配置文件: cp zoo_sample.cfg zoo.cfg 4.修改拷贝过来的配置文件zoo.cfg: #服务目录 dataDir=/export/servers/zookeeper-3.4.9/zkdatas #客

2021-10-28 21:12:40 120

原创 zookeeper概述(概念性知识)

zookepper的学习 1.zk的介绍:一个分布式的服务协调框架 主要用于协调辅助其他的框架正常运行, 主要解决应用系统当中的一致性问题 zk本质上是一个分布式的小文件存储系统:zk上面的每个文件最好不要超过1M 分布式:每台机器看到的数据都是一样的 2.zk的主要作用 2.1 统一命名服务。 2.2.分布式配置管理 3.zk的架构图 主从架构:主节点是任务分配的节点,一般1-2个。从节点是执行任务的节点。 主备架构:解决主节点单一故障的问题。主节点挂了,选一个从节点当主节点。

2021-10-25 22:47:01 379

原创 Shell基础操作

1.linux的shell编程 linux的shell是一门脚本语言,所见即所得 shell编程一般指代shell脚本的开发,不是指代shell内核的开发 查看shell内核: cat /etc/shells /bin/sh (用的多,免费的 ) /bin/bash(用的多,免费的) /sbin/nologin /bin/dash /bin/tcsh /bin/csh 统一软件安装路径: mkdir -p /export/softwares 安装包 mkdir -p /export

2021-10-25 22:45:07 176

原创 hadoop:linux环境搭建前准备

--------------------------------------------------- 关闭防火墙: service iptables stop; 关闭防火前开机自启动:chkconfig iptables off; --------------------------------------------------- 关闭selinux:vim /etc/selinux/config #SELINUX=enforcing SELINUX=disabled ----------

2021-10-25 22:42:00 158

原创 Linux的基础常用命令

需要记住的命令: -------------------------------------------------------------------------------------------- 1.查找命令 --查找服务(常用) ps - ef | grep xxx --find查找命令 find 路径 -name 名称 找文件(常用) find . -type d | sort 找当前目录并且排序 find. -size +100M 找当前目录下大于100M的文件 wherei

2021-10-20 20:34:54 108

原创 Maven的本地仓库配置,与各种概念汇总(了解大概的使用)

Maven仓库概念: Maven主要是把其他地方的jar包下载到本地仓库,供使用。 Maven配置本地仓库: 配置好这两个地方:目录创建好,修改IDEA的maven路径。使用默认路径的本地仓库就创建好了。 想要使用指定路径的maven仓库,需要配置环境变量,具体百度。 Maven的常用命令: clean,清空package包 test,调用插件jutil执行测试类并生成测试报告(测试报告不支持中文) package,打包成jar项目或者war项目 Maven常...

2021-10-17 21:37:28 396

原创 JAVA基础测试题总结

switch表达式后面的数据类型只能是byte,short,char,int四种整形类型, 枚举类型和java.lang.String类型(从java 7才允许),不能是boolean类型。 i++和++i: ++i先运算,i当前改变 i++下一行i值改变(不应该说是下一行,应该是下一次运算前) int a=2; int b=3; int c=a++>b?--b:++a; System.out.println(a+" "+ b +" "+c); int a=0;4+=a...

2021-10-12 21:54:51 114

原创 JAVA基础复习

Stringbuilder只能通过new对象来创建; * * Stringbuilder的添加和反转: * 添加:不管添加什么类型,输出都是字符串 * 链式编程:append返回的是一个对象 * 反转:reverse() String和Stringbuilder相互转换: * Stirng转成Stringbuilder用,带参构造方法; * ...

2021-10-12 20:57:46 99

原创 JAVA基础14:字节缓冲区,编码解码问题,字符流,字符流缓冲区

package com.i; import java.io.*; public class Test_buffer { /** * 字节缓冲区流:缓冲区的构造方法只是为字节流提供了一个缓冲区,底层还是由字节流来完成读写 * BufferedOutputStream: * BufferedInputStream: * * 构造方法: * public BufferedOutputStream(Ou.

2021-10-11 22:24:41 318

原创 JAVA基础13_异常处理,File类,IO流,输入流比较标准的写法

package com.h; import java.io.File; import java.io.IOException; public class Test_exceptionDemo { /** * 异常:通过异常的继承关系可以判断是运行时异常还是编译时异常 * * File的构造方法: * File(File parent, String child) * 从父抽象路径名和子路径名字符串创建新的 F.

2021-10-08 21:21:08 117

原创 JAVA基础12_Set集合和Map集合

package com.g; import java.util.HashSet; import java.util.Set; public class Test_Set { /** * Set集合的特点: * 不包含重复元素的collection; * * HashSet的特点: * 不保证set集合的迭代顺序;特别是他不保证这个顺序恒久不变。 * * HashSet保证元素唯一性的原理: .

2021-10-06 14:23:39 137

原创 JAVA基础11_集合_List集合_迭代器_增强for_常见数据结构

package com.f; import java.util.ArrayList; import java.util.Collection; import java.util.Iterator; import java.util.List; public class Test_Collection { /** * 集合出现的意义: * 面向对象,要对对象进行存储。对象不能是一个基础的变量,需要用容器存储。 * * ...

2021-09-29 20:29:34 139

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除