自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(84)
  • 收藏
  • 关注

原创 java监听机制

11

2020-08-11 23:57:17 155

原创 zookeeper客户端流程分析

1客户端类说明

2020-08-10 21:46:28 142

原创 java IO流

待完善

2020-07-27 22:25:46 128

原创 zookeeper持久化操作

1内容1TxnLog:增量事物日志,记录系统所有增删改记录。2SnapShot:快照,激励内存中全量数据2架构图

2020-07-27 00:03:22 259

原创 kudu创建外部表

1kudu创建外部表----------创建外部表------------CREATE TABLE kudu_table.inner_table (id STRING, NAME STRING, PRIMARY KEY ( id ) ) PARTITION BY HASH PARTITIONS 16 STORED AS KUDU;drop table kudu_table.map_external ;----------------创建外部映射表--------------------

2020-07-21 13:54:29 863

原创 linux目录操作

1linux查询目录下子目录总大小,linux查询当前目录总大小du -sh 查询当前目录总大小du -sh * 查询当前目录下所有子目录总大小 , * 指所有目录,如果只要查询某个目录 替换掉*即可du参数解释-h或–human-readable 以K,M,G为单位,提高信息的可读性-s或–summarize 仅显示总计,即当前目录的大小。常用:du -sh * | sort -nr 查询当前目录下所有子目录总大小 并按大小排序...

2020-07-16 11:06:39 75

原创 impala更改表结构测试案例

drop table alter_table_test;CREATE TABLE db_test.alter_table_test ( id STRING COMMENT '主键', NAME STRING COMMENT '姓名',hight int COMMENT '身高',address STRING ) PARTITIONED BY ( ds STRING COMMENT '分区' ) COMMENT '测试demo' ROW FORMAT DELIMITED FIELDS TERMI

2020-07-15 16:04:09 980

原创 大数据账号权限管控

uid:是用户的UID号,用于标识用户的gid:是用户所属组的ID号,用于标识一个组的groups:用户所属于的组

2020-07-09 15:10:31 294

原创 zookeeper获取服务器地址

1

2020-07-05 10:33:37 1491

原创 jute实现序列化

1

2020-06-30 21:50:45 149

原创 线程池

```java public void start() { //线程池 //corePoolSize int 核心线程池大小 //maximumPoolSize int 最大线程池大小 //keepAliveTime long 线程最大空闲时间 //unit TimeUnit 时间单位 //workQueue BlockingQueue<Runnable> 线程等待队列 //thr.

2020-05-28 23:29:58 94

原创 kafka常见问题汇总

1CDH重新安装kafka,启动失败Fatal error during KafkaServer startup. Prepare to shutdownkafka.common.InconsistentBrokerIdException: Configured broker.id 988 doesn't match stored broker.id 967 in meta.propert...

2019-12-24 09:33:35 235

原创 Java内存区域

内存

2019-11-02 13:51:19 82

原创 java记日志

<dependencies> <dependency> <groupId>log4j</groupId> <artifactId>apache-log4j-extras</artifactId> <version>1.2.1...

2019-10-30 21:39:05 118 1

原创 java读写文件

import org.junit.Test;import java.io.*;import java.util.Arrays;public class ReadAndWrite { public static void main(String[] args) { } /** * 一行一行读取文件,适合字符读取,若读取中文字符时会出现乱码 ...

2019-10-29 21:06:19 98

原创 linux Linux文件和目录的权限

Linux文件和目录的权限1.文件权限在linux系统中,文件或目录的权限可以分为3种:r:4 读w:2 写x:1 执行(运行)-:对应数值0数字 4 、2 和 1表示读、写、执行权限rwx = 4 + 2 + 1 = 7 (可读写运行)rw = 4 + 2 = 6 (可读写不可运行)rx = 4 +1...

2019-10-24 09:19:20 142

原创

1二叉树 优点:能提高数据存储,读取的效率,比如二叉排序树,既可以保证数据的检索速度,同时也可以保证数据插入,删除,修改的速度。 2 示意图 二叉树的概念树有很多种,每个节点最多只能有两个子节点的一种形式称为二叉树。 二叉树的子节点分为左节点和右节点。 如果该二叉树的所有叶子节点都在最后一层,并且结点总数= 2^n -...

2019-10-17 21:50:32 112

原创 哈希

1 哈希表基本介绍散列表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。2使用哈希表来管理 雇员信息1员工类/** * 员工 */public class Emp { public ...

2019-10-15 22:03:17 121

原创 排序

1冒泡排序import java.util.Arrays;/** * 冒泡排序 * 时间复杂度O(n²) */public class BubbleSort { public static void main(String[] args) { int arr[] = {3, 2, 1, 0, 20,2,4,2,4}; bubbleSort(...

2019-10-13 11:13:10 96

原创 impala经验之谈

1impala空字符串显示和处理2impala参数设置(max_row_size)

2019-09-11 22:25:53 490

原创 数据结构和算法

1稀疏数组package com.github.structure;public class SparseArray { public static void main(String[] args) { System.out.println("1111"); //0表示没有棋子,1表示黑子 2表示蓝子 //c创建一个原始二维数组11...

2019-09-07 17:25:00 96

转载 java.util.ArrayList 类

1、ArrayList 定义 ArrayList 是一个用数组实现的集合,支持随机访问,元素有序且可以重复。public class ArrayList<E> extends AbstractList<E> implements List<E>, RandomAccess, Cloneable, java.io.Serial...

2019-08-24 11:18:33 4966

转载 impala实现拉链表

1.文档目的 拉链表是针对数据仓库设计中表存储数据的方式而定义的,即是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。传统数据仓库一般采用拉链的方式保留主数据(例如客户信息)的变化数据,采用这种设计方式的主要原因是减少数据冗余。这个需求在Hadoop中主要是有以下两种实现方式选择:每天保留一份全量的切片数据。Hadoop平台由于采用通用的硬件设备,因此存储空间的...

2019-08-10 16:06:57 1222 2

转载 Hive 的权限控制

Hive 的权限控制Hive从0.10可以通过元数据控制权限。但是Hive的权限控制并不是完全安全的。基本的授权方案的目的是防止用户不小心做了不合适的事情。为了使用Hive的授权机制,有两个参数必须在hive-site.xml中设置:< property> < name>hive.security.authorization.enabled&lt...

2019-07-31 21:12:12 297

原创 sql注意

1delete,drop,truncate区别适用场景TRUNCATE 和DELETE只删除数据, DROP则删除整个表(结构和数据)。 truncate与不带where的delete:只删除数据,而不删除表的结构(定义)drop语句将删除表的结构被依赖的约束(constrain),触发器(trigger)索引(index);依赖于该表的存储过程/函数将被保留,但其状态会变为:inv...

2019-07-31 20:56:11 66

原创 cdh对impala如何动态杀死sql

1产生原因2

2019-07-30 22:30:16 1076

原创 cdh权限控制

1leda2kerberos3sentry权限控制

2019-07-30 22:28:28 719

原创 impala学习

1impala原理2impala类型转换2、cast函数    cast(expr AS type), 类型转换函数, 比如将number转成string, 或相反.    select cast(length as int) len from dw_bill_his where length != '无' and startdate='2018-09-01' order by ...

2019-07-30 22:03:12 920

原创 orcale学习

1orcale大字段查询1identifier is too long 错误解决办法:原因在于字段超过了Oracle本身设定的30个字符.2orcale赋权限3设置Oracle数据库客户端字符集以及系统中的NLS_LANG环境变量4oracle监听[oracle@erzhen ~]$ lsnrctl statusLSNRCTL for L...

2019-07-30 22:01:59 312

原创 orcale

1关于大字段的类型,没仔细查,应该有blob和clob,我看别的好像还有text类型,目前只用了clobclob的用法网上的挺麻烦的,我用的公司集成的框架,直接hibernate的集成的方法插入和更新,也尝试过手打sql,但是会报字符串太长的错。clob适合文字,大幅的文字blob适合图片之类的作者:兔老大的胡萝卜来源:CSDN原文:https://blog.csdn.net/nuo...

2019-07-25 23:08:33 90

转载 Hive 设置map 和 reduce 的个数

一,控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例:a) 假设input目录下有1个文件a,大小为780...

2019-07-10 20:41:05 338

转载 jvm:类加载过程详解

1、加载:这个很简单,程序运行之前jvm会把编译完成的.class二进制文件加载到内存,供程序使用,用到的就是类加载器classLoader ,这里也可以看出java程序的运行并不是直接依 靠底层的操作系统,而是基于jvm虚拟机。如果没有类加载器,java文件就只是磁盘中的一个普通文件。2、连接:连接是很重要的一步,过程比较复杂,分为三步 验证 》准备 》解析     验证:确...

2019-07-10 15:02:45 63

原创 hive文件格式

1TextFile每一行都是一条记录,每行都以换行符(\ n)结尾。数据不做压缩,磁盘开销大,数据解析开销大。可结合Gzip、Bzip2使用(系统自动检查,执行查询时自动解压),但使用这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作。2SequenceFile是Hadoop API提供的一种二进制文件支持,其具有使用方便、可分割、可压缩的特点。支持三种压缩选择:NONE, R...

2019-07-06 15:27:08 142

转载 redis几种数据类型以及使用场景

1. string类型string为最简单类型,一个key对应一个valueset mykey "wangzai" ##设置key,第二次赋值会直接覆盖之前的setnx mykey "wangzai" ## 如果mykey存在,则不改变,如果不存在,则创建赋值 get mykey ##获取ke...

2019-07-03 22:35:57 97

原创 javase

1类的初始化

2019-06-30 11:45:05 64

原创 大数据列式存储parquet/orc

1什么是列式存储传统的数据编码方式是以行为单位进行,列式存储则是将数据划分成数据块,每个数据块内部按列的方式进行编码存储,通过使用列式存储会有以下好处:存储效率更高,因为同一列的数据类型一致,编码效率也会更高 查询效率更高,利用列式存储的统计信息,可以跳过大量的数据,减少IO压力 ...

2019-06-29 15:30:49 245

原创 1hive总结

1hive元数据管理1库,表的基本信息,包括表名,存储类型及地址,分区信息列等 2已经注册的UDF相关信息 3用户,权限相关信息2spark ThriftServer1 spark sql处理 2sql语法解析 3逻辑执行计划生成及优化 4物流执行计划及优化3表,分区与桶内外表 数据格式(推荐parquet存储) 分区(基于文件目录index) 桶(大表join)...

2019-06-29 13:38:17 117

转载 HiveQL (HQL) 与 SQL 区别

Hive的查询语言是HQL,HQL支持SQL-92标准,所以与SQL非常相似。但由于Hive是基于Hadoop,而SQL通常是基于关系型数据库,这使得HQL与SQL相比有一些区别和局限。HQL不支持行级别的增、改、删,所有数据在加载时就已经确定,不可更改。不支持事务。支持分区存储。...

2019-06-27 17:13:26 1820

原创 mapreduce

一,工作机制二,并行度机制三,参数优化

2019-06-27 13:46:55 57

转载 Spark任务提交方式和执行流程

一、Spark中的基本概念(1)Application:表示你的应用程序(2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext(3)Executor:某个Application运行在Worker节点上的一个进程,该进程负责运行某些t...

2019-06-26 09:49:24 334

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除