- 博客(51)
- 收藏
- 关注
原创 Flume的配置和使用
flume的安装比较简单,在以后的hadoop环境上安装一台发送到其他机器上去即可tar -zxvf flume-ng-1.6.0-cdh5.14.0.tar.gz -C /export/servers/cd /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/confcp flume-env.sh.template flume-env.shvimflume-env.shexport JAVA_HOME=/export/servers/...
2024-07-24 16:21:39 269
原创 HIVE的基本使用05(HSQL调优)
1.fetch抓取select * from A;这种语句可以直接读取文件,不走MR程序会快很多;不走MR程序的情况:在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走mapreduce。设置conversion参数后再执行sql:hive (default)> set hive.fetch.task.
2021-12-20 23:11:29 1783
原创 HIVE的基本使用05(指定存储格式,在hive创建表那里提过,此处详细解释)
行存储的特点:查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。列存储的特点:因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量;每个字段的数据类型一定是相同的,列式存储可以针对性的设计更好的设计压缩算法。TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的;ORC和PARQUET是基于列式存储的(实际生产一般用这两种和sn...
2021-12-20 21:51:16 597
原创 HIVE的基本使用05(压缩参数的指定)
压缩格式jar包目录一览表 压缩格式 对应的编码/解码器 DEFLATE org.apache.hadoop.io.compress.DefaultCodec gzip org.apache.hadoop.io.compress.GzipCodec bzip2 org.apache.hadoop.io.compress.BZip2Codec
2021-12-20 21:41:08 396
原创 HIVE的基本使用05(自定义java函数UDF) demo
maven导入jar包<repositories><repository><id>cloudera</id><url>https://repository.cloudera.com/artifactory/cloudera-repos/</url></repository></repositories><dependencies>...
2021-12-20 21:30:57 1117
原创 HIVE的基本使用04(数据查询,以及优化)
select的语法概述(掌握每个关键字的含义和使用):SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list [HAVING condition]][CLUSTER BY col_list| [DISTRIBUTE BY col_list] [SORT BY| ORDER BY col_list] ]...
2021-12-20 21:23:20 133
原创 HIVE的基本使用03(数据插入导入导出)
--------------------------------------------数据导入--------------------------------------------------1.直接向分区表中插入数据(强烈不推荐使用,会调用MR程序,非常慢)insert into table score3 partition(month ='201807')values ('001','002','100');2.通过load方式加载数据load data local inpath .
2021-12-15 22:42:39 201
原创 HIVE的基本使用02(表的创建,维护,加载数据)
-----------------------------创建数据库表语法(熟悉关键字)-----------------------------------------CREATE [EXTERNAL] TABLE[IF NOT EXISTS] table_name[(col_name data_type [COMMENT col_comment], ...)][COMMENT table_comment][PARTITIONED BY(col_name data_t...
2021-12-15 22:29:58 239
原创 HIVE的基本使用01(连接hive,创建数据库)
--------------------------------------hive的交互:--------------------------------------------------1.Hive交互shell(不常用)cd/export/servers/hive-1.1.0-cdh5.14.0bin/hive2.第二种交互方式:Hive JDBC服务(一般后台启动输出日志到文件,常用)启动服务端,客户端进行连接。前台启动cd /export/servers/hi..
2021-12-15 22:08:28 1186
原创 json字符串与java对象的互相转换
JSONObject 转 JSON 字符串JSONObject jsonObject = new JSONObject(); jsonObject.put("name", "wjw"); jsonObject.put("age", 22);jsonObject.put("sex", "男");jsonObject.put("school", "商职");String jsonStr = JSONObject.toJSONString(jsonObject);System.out.pr..
2021-12-13 19:29:04 362
原创 hive基于hadoop安装Mysql存储元数据
1、解压hivecd /export/softwarestar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C ../servers/直接启动bin/hivecd ../servers/cd hive-1.1.0-cdh5.14.0/bin/hivehive> create database mytest;缺点:多个地方安装hive后,每一个hive是拥有一套自己的元数据,大家的库、表就不统一;使用mysql共享hive元数据..
2021-12-07 22:51:15 208
原创 MR自定义分组获取TopN
package com.cn.demo_groupTopN;import org.apache.hadoop.io.WritableComparable;import org.apache.hadoop.io.WritableComparator;/** * 继承WritableComparator类,重写compare 方法 相同的订单ID认为相同 */public class MyGroupCompactor extends WritableComparator { /*.
2021-12-07 22:39:10 910
原创 自定义OutputFormat
package com.cn.demo_outputformat;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hado.
2021-11-30 20:09:06 680
原创 自定义InputFormat
package com.cn.demo_xwjhb;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.BytesWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.mapreduce.InputSplit;import org.apache.hadoop.mapreduce.JobContext;import org.apa.
2021-11-30 20:02:36 132
原创 reduce端的join算法和map端的join算法
------------------------------------reduce端join-------------------------------package demo06.reducejoin;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Map.
2021-11-23 21:41:58 452
原创 hadoop的压缩方式snappy
文件压缩有两大好处,节约磁盘空间,加速数据在网络和磁盘上的传输在重新编译过hadoop的c源码后才可以用谷歌的snappy压缩。我们可以使用bin/hadoop checknative 来查看我们编译之后的hadoop支持的各种压缩,如果出现openssl为false,那么就在线安装一下依赖包//查看压缩支持情况 bin/hadoop checknative//在线安装 yum install openssl-devel这种压缩对应的java类 压缩格式 ...
2021-11-23 20:08:45 2068
原创 hadoop分区
package demo04.flow;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Partitioner;/** * 分区继承于这个类,重写getPartition方法返回数字根据数字分到各个reduce,此处传入的是K2,V2 */public class FlowPartion extends Partitioner<Text, FlowNum> { @Override.
2021-11-23 19:55:01 766
原创 hadoop按照上行流量进行排序
package demo05.flowOrder;import demo04.flow.FlowNum;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * 排序和序列化要实现WritableComparable这个接口,重写compareTo和write,readFields方法.
2021-11-23 19:48:56 1237
原创 hadoop二次排序,自定义计数器
import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * 序列化和比较: * 序列化实现:Writable * 比较实现:Comparable * 既序列化又比较实现:WritableComparable 后面要加泛型 */public class SortWritable i.
2021-11-21 12:39:38 658
原创 hadoop分区
package com.a.b.partion_demo;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Partitioner;public class MyPartioner extends Partitioner<Text,NullWritable> { @Override public in.
2021-11-21 12:35:33 592
原创 MR的单词计数小程序
----------------------------------主程序入口----------------------------------package com.demo01.wordcount;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.I.
2021-11-16 20:28:49 1369
原创 获取hadoop文件系统的5种方式
package com.cn.demo01;import org.apache.commons.io.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;import org.junit.Test;import java.io.*;import jav.
2021-11-11 20:55:29 1779
原创 hdfs文件系统基础命令,高级命令,安全模式,压力测试
ls: -R 递归枚举Usage:hdfs dfs -ls [-R] <args>mkdir: -P 创建父目录和子目录Usage:hdfs dfs -mkdir [-p] <paths>moveFromLocal:从本地剪切文件到hdfs 注意大小写Usage:hdfs dfs -moveFromLocal <localsrc> <dst>moveToLocal :从hdfs移动到系统,此命令还不支持Usage:hdf...
2021-11-08 21:56:44 150
原创 hadoop三种运行环境以及standAlone环境的安装
apache版本的hadoop三种运行环境的介绍1.standAlone:单机版的hadoop运行环境,所有都跑在一台环境上2.伪分布式:主节点都在一台机器上,从节点分开到其他机器上,借助3台机器实现3.完全分布式:主节点全部分散到不通的机器上namenode active 占用一台机器namenodestandBy占用一台机器resourceManager active 占用一台机器resoureceManagerstandby 占用一台机器standAlone环境的h
2021-10-31 15:41:18 1459
原创 linux7.0磁盘挂载
一些概念:卷组:vg卷:lv卷里面放磁盘vg/lv磁盘Linux的目录挂载:Oracle挂载在vg上面,卷组下面可以添加卷。磁盘操作相关命令:添加硬盘(关机添加硬盘,另一种技术叫热插拔不用关机也可以添加硬盘)df -hlvdisplay当前所有逻辑卷vgdisplay查看vg卷组的大小pvgdisplay 物理卷,硬盘上的使用情况(没啥用)开始LVM扩容硬盘格式化:fdisk -lfdisk -l |grep '/dev'grep...
2021-10-28 21:40:54 258
原创 VMware在Wind10下的NAT联网配置
1.windows系统的防火墙这3个要允许。(如果不行可以把防火墙关闭qaq)2.VMware服务要全部启动3.VMnat8虚拟网卡匹配4.VMware配置配置Vmware的Nat配置:DHCP自动分配地址配置(我的机器不知道为啥,需要先自动分配地址连一次网,再改成静态IP才会生效)VMware配置虚拟机的物理地址以及联网模式:5.进入linux系统ctentos6.9配置网卡管理网卡的文件路径: cd /etc/udev/rules.d/70-persi
2021-10-28 21:39:26 476
原创 zookeeper的shell操作
连接zk:bin目录下执行脚本zkCli.shquit退出;------------------------------------------------------------------------------------创建节点:create [-s] [-e] path data acl-s :-e :create /abc helloworld 创建一个永久节点,create -s /bbb helloworld 创建永久的顺序节点create -e /m
2021-10-28 21:19:51 886
原创 zookeeper的javaAPI使用
前提是 windows上host(域名解析文件)文件配置完成。C:\Windows\System32\drivers\etc各台linux服务器和本机能互通。虚拟机zookeeper集权搭建完成并启动。package cn.itcast_zk.demo01;import org.apache.curator.RetryPolicy;import org.apache.curator.RetrySleeper;import org.apache.curator.framework.Curat.
2021-10-28 21:16:34 303
原创 zookeeper安装
关于apache相关软件的安装包:a'paparchive.apache.org/dist/1.解压安装包: tar -zxvf 压缩包 -C 目标路径2.创建目录:mkdir -p /export/servers/zookeeper-3.4.9/zkdatas3.拷贝配置文件:cp zoo_sample.cfg zoo.cfg4.修改拷贝过来的配置文件zoo.cfg:#服务目录dataDir=/export/servers/zookeeper-3.4.9/zkdatas#客
2021-10-28 21:12:40 80
原创 zookeeper概述(概念性知识)
zookepper的学习1.zk的介绍:一个分布式的服务协调框架 主要用于协调辅助其他的框架正常运行,主要解决应用系统当中的一致性问题zk本质上是一个分布式的小文件存储系统:zk上面的每个文件最好不要超过1M分布式:每台机器看到的数据都是一样的2.zk的主要作用2.1 统一命名服务。2.2.分布式配置管理3.zk的架构图主从架构:主节点是任务分配的节点,一般1-2个。从节点是执行任务的节点。主备架构:解决主节点单一故障的问题。主节点挂了,选一个从节点当主节点。
2021-10-25 22:47:01 322
原创 Shell基础操作
1.linux的shell编程linux的shell是一门脚本语言,所见即所得shell编程一般指代shell脚本的开发,不是指代shell内核的开发查看shell内核:cat /etc/shells/bin/sh (用的多,免费的 )/bin/bash(用的多,免费的)/sbin/nologin/bin/dash/bin/tcsh/bin/csh统一软件安装路径:mkdir -p /export/softwares 安装包mkdir -p /export
2021-10-25 22:45:07 129
原创 hadoop:linux环境搭建前准备
---------------------------------------------------关闭防火墙: service iptables stop;关闭防火前开机自启动:chkconfig iptables off;---------------------------------------------------关闭selinux:vim /etc/selinux/config#SELINUX=enforcingSELINUX=disabled----------
2021-10-25 22:42:00 121
原创 Linux的基础常用命令
需要记住的命令:--------------------------------------------------------------------------------------------1.查找命令--查找服务(常用)ps - ef | grep xxx--find查找命令find 路径 -name 名称 找文件(常用)find . -type d | sort 找当前目录并且排序find. -size +100M 找当前目录下大于100M的文件wherei
2021-10-20 20:34:54 79
原创 Maven的本地仓库配置,与各种概念汇总(了解大概的使用)
Maven仓库概念:Maven主要是把其他地方的jar包下载到本地仓库,供使用。Maven配置本地仓库:配置好这两个地方:目录创建好,修改IDEA的maven路径。使用默认路径的本地仓库就创建好了。想要使用指定路径的maven仓库,需要配置环境变量,具体百度。Maven的常用命令:clean,清空package包test,调用插件jutil执行测试类并生成测试报告(测试报告不支持中文)package,打包成jar项目或者war项目Maven常...
2021-10-17 21:37:28 323
原创 JAVA基础测试题总结
switch表达式后面的数据类型只能是byte,short,char,int四种整形类型,枚举类型和java.lang.String类型(从java 7才允许),不能是boolean类型。i++和++i: ++i先运算,i当前改变 i++下一行i值改变(不应该说是下一行,应该是下一次运算前)int a=2;int b=3;int c=a++>b?--b:++a;System.out.println(a+" "+ b +" "+c);int a=0;4+=a...
2021-10-12 21:54:51 75
原创 JAVA基础复习
Stringbuilder只能通过new对象来创建; * * Stringbuilder的添加和反转: * 添加:不管添加什么类型,输出都是字符串 * 链式编程:append返回的是一个对象 * 反转:reverse()String和Stringbuilder相互转换: * Stirng转成Stringbuilder用,带参构造方法; * ...
2021-10-12 20:57:46 65
原创 JAVA基础14:字节缓冲区,编码解码问题,字符流,字符流缓冲区
package com.i;import java.io.*;public class Test_buffer { /** * 字节缓冲区流:缓冲区的构造方法只是为字节流提供了一个缓冲区,底层还是由字节流来完成读写 * BufferedOutputStream: * BufferedInputStream: * * 构造方法: * public BufferedOutputStream(Ou.
2021-10-11 22:24:41 260
原创 JAVA基础13_异常处理,File类,IO流,输入流比较标准的写法
package com.h;import java.io.File;import java.io.IOException;public class Test_exceptionDemo { /** * 异常:通过异常的继承关系可以判断是运行时异常还是编译时异常 * * File的构造方法: * File(File parent, String child) * 从父抽象路径名和子路径名字符串创建新的 F.
2021-10-08 21:21:08 78
原创 JAVA基础12_Set集合和Map集合
package com.g;import java.util.HashSet;import java.util.Set;public class Test_Set { /** * Set集合的特点: * 不包含重复元素的collection; * * HashSet的特点: * 不保证set集合的迭代顺序;特别是他不保证这个顺序恒久不变。 * * HashSet保证元素唯一性的原理: .
2021-10-06 14:23:39 106
原创 JAVA基础11_集合_List集合_迭代器_增强for_常见数据结构
package com.f;import java.util.ArrayList;import java.util.Collection;import java.util.Iterator;import java.util.List;public class Test_Collection { /** * 集合出现的意义: * 面向对象,要对对象进行存储。对象不能是一个基础的变量,需要用容器存储。 * * ...
2021-09-29 20:29:34 100
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人