自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (1)
  • 收藏
  • 关注

原创 go rsa解密 (RSA/ECB/OAEPWITHSHA-256ANDMGF1PADDING)

go ras sha-256掩码函数 sha-1掩码参数 OAEP填充

2022-11-10 11:23:29 980 3

原创 sql经典50题使用hive

建表学生create table student(s_id int,s_name string,dt string,sex string)row format delimitedfields terminated by '\t';01 赵雷 1990-01-01 男02 钱电 1990-12-21 男03 孙风 1990-05-20 男04 李云 1990-08-06 ...

2019-09-24 09:27:40 497 1

原创 Hbase使用协处理器的注意点

Hbase使用协处理器的注意点 1. 协处理器在使用时如果代码出错会使,hbase的节点死掉当节点死掉可以重启服务,删除挂载协处理器的表,或者是卸载协处理器 2. 协处理器是在使用时对同一张表的操作是不用再创建一个表的对象,否则可能会使节点的hbase死掉。 3. 对不同表需要使用不同的表对象 4. 一个表可以挂载多个协处理器,如果有多个则按照挂载顺序来协处理器的分类Observer...

2019-09-23 15:17:07 865

原创 hive使用Tez引擎报错

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTaskhive> set hive.execution.engine=tez;可以进/tmp/{user}/hive.log其中{user}代表安装hive的用户例如在root上安装的hivevi /tmp/root/h...

2019-09-20 11:03:18 1213

原创 Hbase的存储机制

Hbase的存储机制Hbase在存储时各个组件的工作HMasterHmaster在启动时会将region分配到具体的Hregionserver上,当region因为不断的写入数据变得过大到达阈值时,Hmaster会分割Region为两个新的Region并重新分配regionserver上,以尽可能保障每个regionserver的负载均衡。因为读写数据与master没有关系所以master宕...

2019-09-18 21:11:16 930

原创 hbase的组织架构

hbase的组织架构客户端hbase的客户端是访问hbase的客户端可以是linux的shell命令,java的等zookeeperzookeeper用于监控Hmasetr的状态,保证有且只有一个Hmaster活跃,达到高可用的目的。可以存储元数据表的寻址入口,元数据表中存储着region的寻址入口。实时监控regionserver的上线下线,并通知Hmaster。Hmaster为H...

2019-09-18 19:59:42 181

原创 hbase的shell命令

hbase shell命令1.查看命令组,或者命令的帮助信息 1. help --查看所有的命令组合命令 2. help ‘command group’ --查看一个命令组的命令的详细信息 3. help ‘command’ --查看命令的详细用法2.namespace的操作1. list_namespace --查询所有的命名空间2. list_namespace_tables ...

2019-09-17 23:39:47 150

原创 hive练习

有如下通话记录:Zhangsan Wangwu 01:01:01Zhangsan Zhaoliu 00:11:21Zhangsan Yuqi 00:19:01Zhangsan Jingba 00:21:01Zhangsan Wuxi 01:31:17Wangwu Zhaoliu 00:51:01Wangwu Zhaoliu 01:11:19Wangwu Yuqi 00:00:21...

2019-09-17 09:56:09 165

原创 hive中子句的使用

hive中子句的书写顺序select...from....join.....on....where....group by ....having....order by...sort by....limit....union | union all....select 后跟要查询的列每个字段为一列(行专列就可以将字段放到hive后就可以完成)。from 后根表,可以是一个select子句,...

2019-09-17 09:04:54 277

原创 hive的分桶

分桶的概述为什么要分桶数据分区可能导致有些分区数据过多,有些分区数据极少。分桶是将数据集分解为若干部分(数据文件)的另一种技术。分区和分桶其实都是对数据更细粒度的管理。当单个分区或者表中的数据越来越大,分区不能细粒度的划分数据时,我们就采用分桶技术将数据更细粒度的划分和管理[CLUSTERED BY (col_name, col_name, …)stored by (uid des...

2019-09-11 00:43:03 198

原创 hive的分区(二)

动态分区的设置分区的类型静态分区:加载数据到指定的分区的值动态分区:数据未知,根据分区的值确定创建分区混合分区:静态和动态都有动态分区的设置hive.exec.dynamic.partition=true/false --是否支持动态分区hive.exec.dynamic.partition.mode=strict/nostrict --严格/非严格hive.exec....

2019-09-10 22:01:25 133

原创 hive的分区操作(一)

hive的分区操作一、分区的原因作用为什么分区Hive的Select查询时,一般会扫描整个表内容。随着系统运行的时间越来越长,表的数据量越来越大,而hive查询做全表扫描,会消耗很多时间,降低效率。而有时候,我们需求的数据只需要扫描表中的一部分数据即可。这样,hive在建表时引入了partition概念。即在建表时,将整个表存储在不同的子目录中,每一个子目录对应一个分区。在查询时,我们就...

2019-09-10 21:33:37 653

原创 hive的基本操作(二)

表属性的修改修改表名alter table oldTableName rename to newTableName;修改列名:change column oldName newName colType;修改列位置 alter table tableName change colum colnmae colname colType after colname2;最后的列名是移动到coln...

2019-09-10 20:01:35 105

原创 hive的基本操作

hive的基本操作创建数据库create database if not exists mydb; create database mydb;create database if not exists mydb comment 'this is mydb';创建加上描述删除数据库drop database mydb; 可以删除空数据库drop database cascade;强制...

2019-09-10 19:14:22 117

原创 hive的环境搭建

hive的环境搭建hive有三种模式内嵌模式,本地模式,远程连接内嵌模式的配置1. 简介:使用hive自带数据库derby来进行存储元数据,通常用于测试 优点:使用简单,不用进行配置 缺点:只支持单session。 1. 将hive安装包上传到/opt/software/,进行解压 $ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /o...

2019-09-10 15:23:14 99

原创 Hadoop分组函数的使用

Hadoop的分组函数的使用的注意事项Hadoop的分组函数可以继承WritableComparator,也可以继承RawComparator继承WritableComparator时必须写构造方法调用super(比较类的.class,true)继承WritableComparator若是系统有分类就不能使用会报错,就是反序列化不成功继承RawComparator要重写两个方法,根据需求...

2019-09-08 19:54:09 188 1

原创 使用自定义类二次排序

二次排序驱动package erpai;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apache.hado...

2019-09-08 17:38:49 135

原创 自定义类型实现倒排

使用自定义类型实现倒排在MR中shuffle的排序是根据key值自动排序的,它的排序是根据key值升序排列。InvertedDriver驱动类package Inverted;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hado...

2019-09-08 15:33:41 98

原创 job提交作业流程

job提交作业流程调用waitForCompletion每秒轮询作业进度,内部封装了submit()方法用于创建jobCommit的实例,jobCommit的实例实例会调用自己的submitJobInternal提交作业,如果状态有变化就将作业进度输出在控制台,如果失败也会将错误输出jobCommit会向ResourceManager申请一个id号用于MapReduce作业,同时检查输出路径...

2019-09-07 08:59:18 382

原创 HDFS的读写流程

HDFS的读流程客户端通过FileSystem的对象调用open()方法给namenode发送打开一个文件的请求在namenode角度来看客户端是通过DisturbuedSystem发送到请求,namende收到请求后会验证客户端是否有权限读取该文件,该文件是否存在等一系列验证,经过验证后,namenode会返回给客户端一个FSDataInputstream流(可以定位数据副本的位置方便读取...

2019-09-05 20:35:44 97

原创 自定义数据类型

自定义数据类型hadoop中的数据类型就有 FloatWritable DoubleWritable Context Text IntWritable ShortWritable LongWritable ByteWritable 在处理一些问题时这些类型很明显是不够的,因此要...

2019-09-05 17:43:27 321

原创 MR的入门案例

MR的入门案例要求统计文件的数据并且排序去重a.txt12 123 34 1 5 345 23b.txt34 12345 34 1 3 5 57 4c.txt12 23 45 12 56 89 77 57MyDriverpackage com.qf.test;import org.apache.hadoop.conf.Configuration;import org.ap...

2019-09-05 10:23:00 804

原创 Hadoop的高可用的搭建

Hadoop的高可用的配置zookeeper的安装上传文件解压配置环境变量#zookeeperZK_HOME=/opt/apps/zookeeperPATH=$PATH:$ZK_HOME/binexport ZK_HOME PATH修改zook.cfg将zook_sample.cfg 复制一份 cp zook_sample.cfg zook.cfgzook.cfg的内容为...

2019-09-05 09:59:31 71

原创 shuffle

shuffle的开始shuffle过程从map写数据到环形缓冲区到reduce读取数据并合并1. 从map的函数输出阶段开始到reduce函数接受输入数据, 这个过程称为shuffle2. map函数的输出,存储到环形缓冲区(默认大小100M,阈值80M) 环形缓冲区:其实就是一个kvbuffer,有一个sequator标记,kv原始数据从顺时针填充, 用于存储kv原始数据的对应的与那...

2019-09-04 20:35:49 219

原创 MR的分片机制

分片机制分片简介 Hadoop将MapReduce的MapReduce的输入数据划分为等长的小数据块, 称之为输入分片(inputSpilt)或者简称“分片”Hadoop为为一个分片构建一 个单独的map任务,并由该任务来运行用户自定义的map方法,从而处理分片的每一条数据...

2019-09-04 20:32:37 805

原创 全分布式的搭建

HDFS的完全分布式规划master: namenode,secondarynamenode,ResourceManager,datanodeslave1: datanode,NodeManagerslave2: datanode,NodeManagercore-site.xml<configuration><!--指定命名节点URI也就是namenode节点...

2019-09-01 20:53:26 155

原创 Linux中集群时间同步问题

Linux中集群时间同步问题第一种方法如果集群可以联网的化可以使用定时任务来使每一台机器和外界时间同步服务器保持一致使用root用户进行配置前提:安装ntp.x86_64如果没有安装可以使用 yum list | grep ntp 查找相关的软件用 yum -y install 软件名 进行安装安装顺序 先安装ntpdate有两个文件一个使ntp.x86_64,另一个是ntpdat...

2019-09-01 19:39:46 429

原创 HDFS单机版的配置测试

HDFS单机版的配置测试作用用于对MapReduce程序的逻辑进行调试,确保程序的正确。由于在本地模式下测试和调试MapReduce程序较为方便,因此,这种模式适宜用在开发阶段。准备一台虚拟机要求配置好jdk,添加一个用户,centos系统,在/opt目录下创建一个apps得目录mkdir /opt/apps 并且修改拥有者与所属组 chown hadoop:hadoop /opt/a...

2019-09-01 17:13:53 185

原创 HDFS高可用的启动

HDFS高可用的启动在三台机器上分别启动zookeeper[root@master ~]# zkServer.sh start启动Zookeeper之后,可以分别在3台机器上使用如下命令查看Zookeeper的启动状态:[root@master ~]# zkServer.sh status在master机器上启动HDFS:[root@master ~]# start-dfs...

2019-09-01 16:26:03 403

原创 mysql 的rpm安装错误

mysql 的rpm安装错误1. 安装软件前,检查是否已经安装 rpm -qa | grep mysql2. 存在,强制卸载 sudo rpm -e mysql-libs-5.1.71-1.el6.x86_64 --nodeps3. 安装mysql-server4. sudo rpm -ivh mysql-community-server-5.7.21-1.el6.x86_...

2019-08-31 20:07:15 953

原创 yum源的配置

本地yum源将虚拟光驱传到虚拟机mkdir /mnt //首先创建挂载点//挂载mount -t iso9660 -o loop /root/CentOS-6.5-x86_64-bin-DVD1.iso /mnt/yumcd /etc/yum.repos.d //这里配置的是一些仓库,没有网络暂时不能用若是网络可以用可以不更改但是会加载yum源会比较慢rename .repo ...

2019-08-31 20:02:34 235

原创 虚拟机网卡的配置

虚拟机网卡的配置打开VMware点击编辑-----》虚拟网络编辑器点击NAT模式查看子网ip配置虚拟机时前三个段位要和网卡相同这里是网卡的具体信息vi /etc/sysconfig/network-scripts/ifcfg-eth0进入编辑网卡DEVICE=eth0 //网卡0HWADDR=00:0C:29:B9:0B:B4//mac地址克隆的需要改否则不用更改TYPE=Eth...

2019-08-31 19:51:18 5885

rating.json

这个是一些数据以jeson格式的 {"movie":"3408","rate":"4","timeStamp":"978300275","uid":"1"} {"movie":"2355","rate":"5","timeStamp":"978824291","uid":"1"} {"movie":"1197","rate":"3","timeStamp":"978302268","uid":"1"} {"movie":"1287","rate":"5","timeStamp":"978302039","uid":"1"} {"movie":"2804","rate":"5","timeStamp":"978300719","uid":"1"} {"movie":"594","rate":"4","timeStamp":"978302268","uid":"1"} {"movie":"919","rate":"4","timeStamp":"978301368","uid":"1"} {"movie":"595","rate":"5","timeStamp":"978824268","uid":"1"} {"movie":"938","rate":"4","timeStamp":"978301752","uid":"1"} {"movie":"2398","rate":"4","timeStamp":"978302281","uid":"1"}

2019-09-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除