浮生若梦1379-CSDN博客

原创 zookeeper持久化操作

1内容1TxnLog：增量事物日志，记录系统所有增删改记录。2SnapShot：快照，激励内存中全量数据2架构图

2020-07-27 00:03:22 259

1kudu创建外部表----------创建外部表------------CREATE TABLE kudu_table.inner_table (id STRING, NAME STRING, PRIMARY KEY ( id ) ) PARTITION BY HASH PARTITIONS 16 STORED AS KUDU;drop table kudu_table.map_external ;----------------创建外部映射表--------------------

2020-07-21 13:54:29 863

原创 linux目录操作

1linux查询目录下子目录总大小，linux查询当前目录总大小du -sh 查询当前目录总大小du -sh * 查询当前目录下所有子目录总大小 , * 指所有目录，如果只要查询某个目录替换掉*即可du参数解释-h或–human-readable 以K，M，G为单位，提高信息的可读性-s或–summarize 仅显示总计，即当前目录的大小。常用:du -sh * | sort -nr 查询当前目录下所有子目录总大小并按大小排序...

2020-07-16 11:06:39 75

原创 impala更改表结构测试案例

drop table alter_table_test;CREATE TABLE db_test.alter_table_test ( id STRING COMMENT '主键', NAME STRING COMMENT '姓名',hight int COMMENT '身高',address STRING ) PARTITIONED BY ( ds STRING COMMENT '分区' ) COMMENT '测试demo' ROW FORMAT DELIMITED FIELDS TERMI

2020-07-15 16:04:09 980

原创大数据账号权限管控

uid：是用户的UID号，用于标识用户的gid：是用户所属组的ID号，用于标识一个组的groups：用户所属于的组

2020-07-09 15:10:31 294

原创 zookeeper获取服务器地址

1

2020-07-05 10:33:37 1491

原创 jute实现序列化

1

2020-06-30 21:50:45 149

原创线程池

```java public void start() { //线程池 //corePoolSize int 核心线程池大小 //maximumPoolSize int 最大线程池大小 //keepAliveTime long 线程最大空闲时间 //unit TimeUnit 时间单位 //workQueue BlockingQueue<Runnable> 线程等待队列 //thr.

2020-05-28 23:29:58 94

原创 kafka常见问题汇总

1CDH重新安装kafka，启动失败Fatal error during KafkaServer startup. Prepare to shutdownkafka.common.InconsistentBrokerIdException: Configured broker.id 988 doesn't match stored broker.id 967 in meta.propert...

2019-12-24 09:33:35 235

原创 Java内存区域

内存

2019-11-02 13:51:19 82

原创 java记日志

<dependencies> <dependency> <groupId>log4j</groupId> <artifactId>apache-log4j-extras</artifactId> <version>1.2.1...

2019-10-30 21:39:05 118 1

原创 java读写文件

import org.junit.Test;import java.io.*;import java.util.Arrays;public class ReadAndWrite { public static void main(String[] args) { } /** * 一行一行读取文件，适合字符读取，若读取中文字符时会出现乱码 ...

2019-10-29 21:06:19 98

原创 linux Linux文件和目录的权限

Linux文件和目录的权限1.文件权限在linux系统中,文件或目录的权限可以分为3种:r:4 读w:2 写x:1 执行(运行)－：对应数值0数字 4 、2 和 1表示读、写、执行权限rwx = 4 + 2 + 1 = 7 (可读写运行）rw = 4 + 2 = 6 （可读写不可运行）rx = 4 +1...

2019-10-24 09:19:20 142

原创树

1二叉树优点：能提高数据存储，读取的效率，比如二叉排序树，既可以保证数据的检索速度，同时也可以保证数据插入，删除，修改的速度。 2 示意图二叉树的概念树有很多种，每个节点最多只能有两个子节点的一种形式称为二叉树。二叉树的子节点分为左节点和右节点。如果该二叉树的所有叶子节点都在最后一层，并且结点总数= 2^n -...

2019-10-17 21:50:32 112

原创哈希

1 哈希表基本介绍散列表（Hash table，也叫哈希表），是根据关键码值(Key value)而直接进行访问的数据结构。也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做散列表。2使用哈希表来管理雇员信息1员工类/** * 员工 */public class Emp { public ...

2019-10-15 22:03:17 121

原创排序

1冒泡排序import java.util.Arrays;/** * 冒泡排序 * 时间复杂度O(n²) */public class BubbleSort { public static void main(String[] args) { int arr[] = {3, 2, 1, 0, 20,2,4,2,4}; bubbleSort(...

2019-10-13 11:13:10 96

原创 impala经验之谈

1impala空字符串显示和处理2impala参数设置（max_row_size）

2019-09-11 22:25:53 490

原创数据结构和算法

1稀疏数组package com.github.structure;public class SparseArray { public static void main(String[] args) { System.out.println("1111"); //0表示没有棋子，1表示黑子 2表示蓝子 //c创建一个原始二维数组11...

2019-09-07 17:25:00 96

转载 java.util.ArrayList 类

1、ArrayList 定义 ArrayList 是一个用数组实现的集合，支持随机访问，元素有序且可以重复。public class ArrayList<E> extends AbstractList<E> implements List<E>, RandomAccess, Cloneable, java.io.Serial...

2019-08-24 11:18:33 4966

转载 impala实现拉链表

1.文档目的拉链表是针对数据仓库设计中表存储数据的方式而定义的，即是记录历史。记录一个事物从开始，一直到当前状态的所有变化的信息。传统数据仓库一般采用拉链的方式保留主数据（例如客户信息）的变化数据，采用这种设计方式的主要原因是减少数据冗余。这个需求在Hadoop中主要是有以下两种实现方式选择：每天保留一份全量的切片数据。Hadoop平台由于采用通用的硬件设备，因此存储空间的...

2019-08-10 16:06:57 1222 2

转载 Hive 的权限控制

Hive 的权限控制Hive从0.10可以通过元数据控制权限。但是Hive的权限控制并不是完全安全的。基本的授权方案的目的是防止用户不小心做了不合适的事情。为了使用Hive的授权机制，有两个参数必须在hive-site.xml中设置：< property> < name>hive.security.authorization.enabled&lt...

2019-07-31 21:12:12 297

原创 sql注意

1delete，drop，truncate区别适用场景TRUNCATE 和DELETE只删除数据， DROP则删除整个表（结构和数据）。 truncate与不带where的delete：只删除数据，而不删除表的结构（定义）drop语句将删除表的结构被依赖的约束（constrain),触发器（trigger)索引（index);依赖于该表的存储过程/函数将被保留，但其状态会变为：inv...

2019-07-31 20:56:11 66

原创 cdh对impala如何动态杀死sql

1产生原因2

2019-07-30 22:30:16 1076

原创 cdh权限控制

1leda2kerberos3sentry权限控制

2019-07-30 22:28:28 719

原创 impala学习

1impala原理2impala类型转换2、cast函数　　　　cast(expr AS type), 类型转换函数, 比如将number转成string, 或相反.　　　　select cast(length as int) len from dw_bill_his where length != '无' and startdate='2018-09-01' order by ...

2019-07-30 22:03:12 920

原创 orcale学习

1orcale大字段查询1identifier is too long 错误解决办法:原因在于字段超过了Oracle本身设定的30个字符.2orcale赋权限3设置Oracle数据库客户端字符集以及系统中的NLS_LANG环境变量4oracle监听[oracle@erzhen ~]$ lsnrctl statusLSNRCTL for L...

2019-07-30 22:01:59 312

原创 orcale

1关于大字段的类型，没仔细查，应该有blob和clob，我看别的好像还有text类型，目前只用了clobclob的用法网上的挺麻烦的，我用的公司集成的框架，直接hibernate的集成的方法插入和更新，也尝试过手打sql，但是会报字符串太长的错。clob适合文字，大幅的文字blob适合图片之类的作者：兔老大的胡萝卜来源：CSDN原文：https://blog.csdn.net/nuo...

2019-07-25 23:08:33 90

转载 Hive 设置map 和 reduce 的个数

一，控制hive任务中的map数:1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例：a) 假设input目录下有1个文件a,大小为780...

2019-07-10 20:41:05 338

转载 jvm：类加载过程详解

1、加载：这个很简单，程序运行之前jvm会把编译完成的.class二进制文件加载到内存，供程序使用，用到的就是类加载器classLoader ，这里也可以看出java程序的运行并不是直接依靠底层的操作系统，而是基于jvm虚拟机。如果没有类加载器，java文件就只是磁盘中的一个普通文件。2、连接：连接是很重要的一步，过程比较复杂，分为三步验证》准备》解析　　　　验证：确...

2019-07-10 15:02:45 63

原创 hive文件格式

1TextFile每一行都是一条记录，每行都以换行符（\ n）结尾。数据不做压缩，磁盘开销大，数据解析开销大。可结合Gzip、Bzip2使用（系统自动检查，执行查询时自动解压），但使用这种方式，hive不会对数据进行切分，从而无法对数据进行并行操作。2SequenceFile是Hadoop API提供的一种二进制文件支持，其具有使用方便、可分割、可压缩的特点。支持三种压缩选择：NONE, R...

2019-07-06 15:27:08 142

转载 redis几种数据类型以及使用场景

1. string类型string为最简单类型，一个key对应一个valueset mykey "wangzai" ##设置key，第二次赋值会直接覆盖之前的setnx mykey "wangzai" ## 如果mykey存在，则不改变，如果不存在，则创建赋值 get mykey ##获取ke...

2019-07-03 22:35:57 97

原创 javase

1类的初始化

2019-06-30 11:45:05 64

原创大数据列式存储parquet/orc

1什么是列式存储传统的数据编码方式是以行为单位进行，列式存储则是将数据划分成数据块，每个数据块内部按列的方式进行编码存储，通过使用列式存储会有以下好处：存储效率更高，因为同一列的数据类型一致，编码效率也会更高查询效率更高，利用列式存储的统计信息，可以跳过大量的数据，减少IO压力 ...

2019-06-29 15:30:49 245

原创 1hive总结

1hive元数据管理1库，表的基本信息，包括表名，存储类型及地址，分区信息列等 2已经注册的UDF相关信息 3用户，权限相关信息2spark ThriftServer1 spark sql处理 2sql语法解析 3逻辑执行计划生成及优化 4物流执行计划及优化3表，分区与桶内外表数据格式（推荐parquet存储）分区（基于文件目录index）桶（大表join）...

2019-06-29 13:38:17 117

转载 HiveQL (HQL) 与 SQL 区别

Hive的查询语言是HQL，HQL支持SQL-92标准，所以与SQL非常相似。但由于Hive是基于Hadoop，而SQL通常是基于关系型数据库，这使得HQL与SQL相比有一些区别和局限。HQL不支持行级别的增、改、删，所有数据在加载时就已经确定，不可更改。不支持事务。支持分区存储。...

2019-06-27 17:13:26 1820

原创 mapreduce

一，工作机制二，并行度机制三，参数优化

2019-06-27 13:46:55 57

转载 Spark任务提交方式和执行流程

一、Spark中的基本概念（1）Application：表示你的应用程序（2）Driver：表示main()函数，创建SparkContext。由SparkContext负责与ClusterManager通信，进行资源的申请，任务的分配和监控等。程序执行完毕后关闭SparkContext（3）Executor：某个Application运行在Worker节点上的一个进程，该进程负责运行某些t...

2019-06-26 09:49:24 334

空空如也

空空如也