自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

寒暄的博客

这个时代就是这样的,不快就得死,耐心不能当饭吃。

  • 博客(37)
  • 资源 (9)
  • 收藏
  • 关注

原创 开源 OLAP 引擎选择标准

说OLAP引擎,就得先说说OLTP引擎。什么是OLTP引擎20世纪70年代,关系型数据库随着一篇影响世界发展进程的论文发表而出现。20世纪80年代,人们太喜欢关系型数据库了,恨不得把所有的数据都存进去,许多企业利用关系型数据库来存储和管理业务数据,并建立相应的应用系统来支持日常的业务运作。这种应用以支持业务处理为主要目的,被称为联机事务处理(On line Transaction Processing,OLTP)应用,它所存储的数据被称为操作数据或者业务数据。一言以蔽之:OLTP引擎用来管理操作性

2020-06-24 10:08:14 737

原创 Scala语言基础-基础语法

注意点scala语言区分大小写类名遵循大驼峰写法(AaaBbbCcc)方法名遵循小驼峰写法(aaaBbbCcc)类名与文件名一致注释单行注释: // 单行注释多行注释:/*多行注释*/包定义:package com.oneclass HelloScala{…}package con.one{class HelloScala…}导包:import java.awt.Color选择导包:import java.awt.{Color,Font}导包别名:i

2020-06-29 20:38:17 330

原创 ClickHouse常用数据类型与其他组件类型对比

与其他组件数据类型对比MySQLHiveClickHousebyteTINYINTInt8shortSMALLINTInt16intINTInt32longBIGINTInt64varcharSTRINGStringtimestampTIMESTAMPDateTimefloatFLOATFloat32doubleDOUBLEFloat64booleanBOOLEAN-注意点:ClickHous

2020-06-28 16:40:52 3117

原创 使用IDEA创建一个Scala项目

VS Code社区对Scala的支持还不是很成熟(组件安装繁琐,不支持关键词提示,不支持直接运行),为了更好的进行学习,Scala还是使用IDEA进行开发合适。1.配置Scala开发环境下载地址:https://www.scala-lang.org/download/all.html随便选一个版本,不过提前看看你使用的spark的版本号对应的scala版本。然后安装,配置环境变量。略注:scala通过jvm编译运行,必须安装java环境2.在IDEA中下载Scala插件打开idea,在“文件”

2020-06-25 19:24:18 5181

原创 ClickHouse单机模式,集群模式部署

安装前的准备取消服务打开的文件数限制centos默认打开文件数为1024,但是OLAP引擎都是海量文件读取,所以需要修改访问文件数限制。首先看一下文件数限制ulimit -n1024centos默认是1024个文件数vi /etc/security/limits.conf在最后追加:* soft nofile 65536* hard nofile 65536* soft nproc 131072* hard nproc 131072vi /etc/security/limi

2020-06-25 18:34:54 1532

原创 OLAP引擎之ClickHouse概述

文档:https://clickhouse.tech/docs/zh/什么是ClickHouseClickHouse是俄罗斯的Yandex(类似于国内百度一样的定位)于2016年开源的列式存储数据库(DBMS),主要用于OLAP查询(OLAP引擎会专门说一说),能够实时生成分析数据报告。什么是列式存储我们平常使用的关系型数据库都是行式存储:rownamesex1张三男2小红女3李四男行式存储中一行为一个单位,在磁盘上的组织结构为:1,张三,男;2

2020-06-24 17:29:49 324

原创 Sqoop脚本调用

在生产环境中,肯定不能直接去跑命令,需要使用脚本文件,然后定时执行脚本文件即可。cd /usr/hdkmkdir jobcd jobvi RDBMS2HDFS.optimport--connect jdbc:mysql://hadoop01:3306/cs --username root --password 123456 --table staff1 --target-dir /user/cs --delete-target-dir --num-mappers 1

2020-06-23 10:12:22 892 1

原创 数据迁移工具--Sqoop数据导出

导出数据在sqoop中,“导出”是指从HDFS中将数据导入到关系型数据库中。使用export关键字。sqoop export \--connect jdbc:mysql://hadoop01:3306/cs \--username root \--password 123456 \--table staff1 \--num-mappers 1 \--export-dir /user/hive/warehouse/staff_hive \--input-fields-terminated-b

2020-06-23 10:11:14 156

原创 数据迁移工具--Sqoop数据导入

准备一些数据:在MySQL中新建一个测试库,新建一个表,插入两行数据:CREATE DATABASE cs;CREATE TABLE cs.staff(id int(4) primary key not null auto_increment, name varchar(255), sex varchar(255));INSERT INTO cs.staff VALUES (1, 'Thomas', 'Male');INSERT INTO cs.staff VAL

2020-06-22 16:52:20 204

原创 CDH集成Sqoop

CDH集成Sqoop2Sqoop是Hadoop生态中与Hadoop关系很紧密的一个组件,所以在CDH中无序下载多余的包,可以直接进行集成。第一步:切换到需要集成的集群,点击添加服务。第二步:选择Sqoop2服务。第三步:选择安装节点,然后一直点继续第四步:安装完成,重启集群。注意:生产环境中主要用Sqoop1。...

2020-06-22 16:50:28 1138

原创 数据迁移工具--Sqoop安装与部署

下载链接:http://archive.apache.org/dist/sqoop/1.4.6/下载后传到集群中master上。前提环境:JDK1.8环境,Hadoop2.7环境。第一步:解压缩,重命名。解压缩:tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-O5sF8y2S-1592815672765)(https://i.loli.net/2020/06/22

2020-06-22 16:49:14 206

原创 数据迁移工具--Sqoop概述

Sqoop简介Sqoop全称SQL to Hadoop,主要用于Hadoop与SQL(这里的SQL指关系型数据库)进行数据的传递。可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS中的数据导入到关系型数据库中。Sqoop本身就是作为Hadoop的一个第三方模块存在,后来为了方便迭代才作为一个单独的Apache项目存在。Sqoop1中1.4.7(不包含1.4.7)之前的版本用于CentOS6版本,1.4.7(包含1.4.7)用于CentOS7版本。Sqoop2用于测试,不用于

2020-06-22 16:47:43 398

原创 Java语言进阶-反射

Java反射机制概述反射被视为动态语言的关键,反射机制允许程序在执行期间借助反射API获得任何类的内部信息,并能直接操作任意对象的内部属性与方法。加载完类后,在堆内存的方法区就产生了一个Class类型的对象(一个类只有一个class对象)。这个对象就包含了完整的类的结构信息。我们可以通过这个对象看到类的结构。这个对象就像一面镜子,透过这个镜子就可以看到类的结构,所以,我们形象的称为:反射。Java反射机制提供的功能在运行时判断任意一个对象所属的类在运行时构造任意一个类的对象在运行时判断任意一个

2020-06-20 16:52:23 172

原创 Java语言进阶-泛型

为什么要有泛型我们来看一个程序:import java.util.ArrayList;import java.util.List;public class GeneTest { public static void main(String[] args) { List arrayList = new ArrayList(); arrayList.add("aaaa"); arrayList.add(100); for(int

2020-06-19 17:11:46 113

原创 Java语言进阶-集合-HashMap源码解析

首先看一下属性//默认的初始容量为 16static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;//最大的容量上限为 2^30static final int MAXIMUM_CAPACITY = 1 << 30;//默认的负载因子为 0.75static final float DEFAULT_LOAD_FACTOR = 0.75f;//变成树型结构的临界值为 8static final int TREEIFY_T

2020-06-19 14:35:25 130

原创 Java语言进阶-集合-Map接口

Map接口Map:双列数据,存储Key-Value对的数据HashMap:Map的主要实现类,线程不安全,效率高,可以存储null值,底层是数组+链表+红黑树LinkedHashMap:线程安全的实现类,效率低。保证在遍历map元素时,可以按照添加的顺序实现遍历。因为他自带一对指针,适合做频繁的遍历TreeMap:保证按照添加的Key-value对进行排序,实现排序遍历。底层是红黑树Hashtable:古老的实现类Properties:常用来处理配置文件HashMap的底

2020-06-18 17:16:19 149

原创 Java语言进阶-集合-LinkedList源码解析

LinkedList源码的代码量就没有ArrayList的多。同时有一个很特别的数据类型-node,他用来存储与链接数据。他的空参构造器是真·空参构造器,带参构造器调用的是addAll方法(直接全倒进去就行,不用管其他的了)。这样的话,我们还是看点有意义的部分,比如如何构建底层的链表: /** * Links e as last element. */ void linkLast(E e) { // 因为last没有赋过值,所以第一次调用时,l等于nu

2020-06-17 21:05:50 101

原创 Java语言进阶-集合-ArrayList源码解析

ArrayList类位于java.util包下。第一步:创建一个ArrayList对象,定位到ArrayList构造器java.util.ArrayList__164---------- public ArrayList() { this.elementData = DEFAULTCAPACITY_EMPTY_ELEMENTDATA;}可以看到他给 elementData 赋了一个常量,这个常量在上面有定义。 java.util.ArrayList__126-----

2020-06-17 20:26:32 143 2

原创 Java语言进阶-集合-Collection接口

Collection接口Collection接口常用方法如下:import java.util.ArrayList;import java.util.Collection;import java.util.Date;import org.junit.Test;public class CollectionTest { @Test public void test1(){ Collection coll = new ArrayList(); /

2020-06-17 15:47:49 101

原创 Java语言进阶-集合

集合概述一方面,面向对象语言对事物的体现都是以对象的形式,为了方便对多个对象的操作,就要对对象进行存储。另一方面,使用Array存储对象方面具有一些弊端,而JAVA集合就像一种容器,可以动态的把多个对象的引用放入容器中。数组存储的优点:数组初始化以后,长度就确定了数组声明的类型,就决定了进行元素初始化时的类型数组存储的弊端:数据初始化以后,长度就不可变了,不便于扩展数组中提供的属性和方法少,不便于进行添加、删除、插入等操作,且效率不高,无法同时获取存储元素的个数数组存储的数据是有序

2020-06-17 15:47:23 142

原创 Java语言进阶-注解

什么是注解从JDK5.0之后,Java增加了对元数据的支持,也就是Annotation。注解其实就是代码里的特殊标记,这些标记可以在编译,加载,运行时被读取,并执行相应的处理。通过注解,程序员可以在不改变原有逻辑的情况下,在源文件中嵌入一些补充信息。代码分析工具、开发工具和部署工具可以通过这些补充信息进行验证或者进行部署。注解可以像修饰符一样被使用,可用于修饰包,类,构造器,方法,成员变量,参数,局部变量的声明,这些信息被保存在注解的name=value对中。未来的开发模式基本就是基于注解,可以说框

2020-06-13 13:43:30 142

原创 Java语言进阶-枚举类

什么是枚举类当类的对象有有限个,是确定的就可以使用枚举类。需要定义一组常量来提供选择的类建议使用枚举类。在JDK5.0之前需要自定义枚举类,JDK5.0之后新增的enum关键字用于定义枚举类。如何自定义枚举类如何使用关键字enum定义枚举类Enum类的主要方法实现接口的枚举类...

2020-06-12 20:53:33 135

原创 Java语言进阶-常用类-其他常用类

java.lang.SystemSystem类表示系统类,系统级的很多属性与方法都在此类中。该类的构造器是private,所以无法创建该类的对象,也无法实例化该类。但是其内部的属性与方法都是static声明的,所以也可以很方便的进行调用。System类内部包含in,out,err三个成员变量,分别代表标准输入流(键盘输入),标准输出流(显示器)和标准错误输出流(显示器)。常用方法:currentTimeMillis()该方法的作用是返回当前的计算机时间,时间的表达格式为当前计算机时间和GMT

2020-06-12 15:51:44 109

原创 Java语言进阶-常用类-Comparator类

java.util.Comparator当元素的类型没有实现java.lang.Comparable接口而又不方便修改代码,或者实现了java.lang.Comparable接口的排序规则不适合当前的操作,那么可以考虑使用Comparator的对象来排序,强行对多个对象进行整体排序的比较。重写compare(Object o1,Object o2)方法,比较o1和o2的大小:如果方法返回正整数,则表示o1大o2;如果返回0,表示相等;返回负整数,表示o1小于o2。可以将 Comparato

2020-06-12 15:05:39 1188 1

原创 Java语言进阶-常用类-Comparable类

java.lang.ComparableComparable接口强行对实现它的每个类的对象进行整体排序。这种排序被称为类的自然排序。实现 Comparable 的类必须实现 compareTo(Object obj) 方法,两个对象即通过 compareTo(Object obj) 方法的返回值来比较大小。如果当前对象this大 于形参对象obj,则返回正整数,如果当前对象this小于形参对象obj,则返回负整数,如果当前对象this等于形参对象obj,则返回零。实现Comparable接

2020-06-12 15:04:46 2596

原创 CDH集成Spark2

下载组件CDH5.12默认集成spark1.6,更换为spark2需要下载四个文件:SPARK2_ON_YARN-2.2.0.cloudera1.jarhttp://archive.cloudera.com/spark2/csd/SPARK2_ON_YARN-2.2.0.cloudera1.jarSPARK2-2.2.0.cloudera1-1.cdh5.12.0.p0.142354-xenial.parcelhttp://archive.cloudera.com/spark2/parce

2020-06-12 14:15:43 553 2

原创 CentOS7-悄无声息的网络错误:Failed to start LSB: Bring up/down networking 解决方法

问题:今天早上起测试的虚拟机集群,然后发现有一个节点的网络服务掉了,然后重启网卡systemctl restart network,报错。然后想重启下network-manager看看有没有用,结果也报错。报错信息如下:[root@hadoop02 ~]# systemctl restart networkFailed to restart network.service: Unit network.service not found.Job for network.service failed be

2020-06-12 10:02:26 326

原创 Java语言进阶-常用类-日期时间类

java.lang.System类System类提供的public static long currentTimeMillis()用来返回当前时间与1970年1月1日0时0分0秒之间以毫秒为单位的时间差。此方法适合用于计算时间差计算世界时间主要有三个标准:UTC/GMT/CSTjava.util.Date类表示特定的瞬间,精确到毫秒这个类有两个构造器:Date()/Date(long date)常用方法:getTime()返回当前时间与1970年1月1日0时0分0秒之间以毫秒为单位

2020-06-11 16:54:57 217

原创 Java语言进阶-常用类-StringBuffer类

String/StringBuffer/StringBuilderTest的区别String:不可变的字符序列,底层使用char[]存储StringBuffer:可变的字符序列,线程安全(都是同步方法),效率低,底层使用char[]存储StringBuilderTest:可变的字符序列,jdk5.0新增,线程不安全,效率高,底层使用char[]存储创建StringBuffer对象stringbuffer类不同于string,其对象必须使用构造器生成。一共有三个构造器:stringbuffer(

2020-06-11 15:20:50 120

原创 Java语言进阶-常用类-String类

String的特性String类:代表字符串。Java程序中的所有字符串字面值都为此类的实例对象String类是一个final类,代表不可变的字符序列字符串是常量,用双引号括起来,他们的值在创建后就不能被更改string对象的字符内容时存储在一个字符数组value[]上的实现了Serializable接口,表示字符串支持序列化实现了Comparable接口,表示字符串可以比较大小import org.junit.Test;public class StringTest{ @Te

2020-06-11 11:44:05 114

原创 Java语言进阶-罪恶的开始-多线程(下)

线程的生命周期当一个线程被创建直到这个线程被销毁,中间的过程就是这个线程的生命周期。一个完整的生命周期通信要经历如下五个步骤:新建:当一个Thread类或其子类的对象被声明并创建时,新生的线程对象处于新建状态。就绪:处于新建状态的线程被start()后,将进入线程队列等待CPU时间片,此时他已经具备了运行的条件,只是没分配到CPU资源运行:当就绪的线程被调度并获得CPU资源时,便进入运行状态,run()方法定义了线程的操作和功能阻塞:在某种特殊情况下,被人挂起或执行输入输出操作时,让出CPU并

2020-06-10 14:28:06 119

原创 Java语言进阶-罪恶的开始-多线程(上)

基本概念程序是为了完成特定任务、用某种语言编写的一组指令的集合。即指一段静态的代码,静态对象。进程是程序的一次执行过程,或是正在运行的一个程序。是一个动态的过程:有他自身的产生、存在和消亡的过程。比如正在运行的APP。程序是静态的,进程是动态的。线程进程可进一步细化为线程,是一个程序内部的一条执行路径。若一个进程同一时间并行执行多个线程,就是支持多线程。线程作为调度和执行的单位,每个线程拥有独立的运行栈和程序计数器,线程切换的开销小。一个进程中的多个线程共享相同的内存单元/内存地址空间

2020-06-08 11:46:00 138

原创 什么是Elastic Stack

什么是Elastic StackElastic Stack是由ELK演化而来,ELK是三种软件的简称,分别是Elasticsearch、logstash、kibana组成,在发展的过程中,又有新成员Beats的假如,形成了Elastic Stack。也就是ELK在兼并Beats后形成的新联盟–ELKB是Elastic Stack。(兼并一个组件就要加一个首字母,那ELKB就会变成ELKBXC巴拉巴拉的~~)ElasticsearchElasticsearch是一个基于Java的开源分布式搜索引擎

2020-06-05 20:39:36 7118

原创 Lucene底层架构与优化

Lucene底层存储结构这是一个物理上的索引库。这是一个逻辑上的索引库。物理索引库中的Segment_1文件对应了逻辑索引库中的Segment段。Segment段的文件大小有上限,达到上限后自动产生新的Segment段文件。上限可以去使用版本的文档中查询,每个版本的上限不一样。物理索引库中的write.lock是锁文件,保证当前只有一个线程在操作Segment文件逻辑索引库中的词典分为三部分,分别是关键词+文档号+出现位置。关键词的大小是有限制的,最大也就是新华词典+牛津词典+文言文词典+

2020-06-03 08:27:53 456

原创 Lucene进阶操作

常用索引库操作是否分析:是否对域的内容进行分词处理。前提是我们要对域的内容进行查询。是否索引:将Field分析后的词或整个Field值进行索引,只有索引方可搜索到。是否存储:将Field的值存储在文档中,存储在文档中的Field才可以通过Document获取。Field类数据类型是否分析是否索引是否存储说明StringField(FieldName,FieldValue,Store.YES)字符串否是都可以这个Field用来构建一个字符串Field,但是不会进行

2020-06-02 11:14:44 276 1

原创 Lucene部署配置

什么是LuceneLucene是一个基于Java开发的全文检索工具包。不管是Solr还是ES的底层都是Lucene,也可以说Lucene是目前为止Java对于全文检索唯一的解决方案。安装与部署从官网上直接下载:https://lucene.apache.org/core/downloads.html解压后开始配置:首先配置Java环境变量(JDK1.8+以上),然后我们来看一下Lucene目录中比较重要的目录analysis:分析器包core:核心包queryparser:查询分析器包

2020-06-02 08:30:30 419

原创 Lucene基础操作

工程搭建创建一个Java工程添加jar包:lucene-analyzers-common-xxx.jarlucene-core-xxx.jarcommons-io.jar目录树创建索引库步骤创建一个Director对象,指定索引库保存的位置基于Director对象创建一个IndexWriter对象读取磁盘上的文件,对应每个文件来创建一个文档对象向文档对象中添加域将文档对象写入索引库关闭IndexWriter对象代码:package co

2020-06-01 17:20:15 171

dolphinscheduler-service-3.1.0.jar

该jar包用以解决dolphinscheduler版本引起的bug: org.apache.dolphinscheduler.server.master.runner.task.CommonTaskProcessor:[125] - [WorkflowInstance-272][TaskInstance-0] - submit task error。 该问题由版本bug解决,可以升级至dolphinscheduler2022年11月之后版本解决。

2023-01-05

CDH-6.3.2-FLINK1.12.0相关资源包

CDH-6.3.2-FLINK1.12.0相关资源包

2022-03-15

flink-connector-clickhouse.jar

flinkSQL clickhouse连接器

2021-10-19

行政区域维度表、时间维度表、日期维度表数据.rar

行政区域维度表、时间维度表、日期维度表,表结构、表数据、建表语句、生成数据的python脚本。

2021-10-11

doris-output 编译后

doris12编译

2021-09-26

hudi编译所需jar包.zip

kafka-schema-registry-client-6.1.1.jar pentaho-aggdesigner-algorithm-5.1.5-jhyde.jar common-config-6.1.1.jar common-utils-6.1.1.jar kafka-avro-serializer-6.1.1.jar

2021-04-27

atlas必备资源包

apache-atlas-2.0.0-hive-hook.tar.gz apache-atlas-2.0.0-server.tar.gz

2020-10-21

guliVideo.zip

https://blog.csdn.net/qq_41106844/article/details/107429584 配套练习guliVideo,Hive SQL 练习题数据源。 有两份数据,一份用户数据,一份视频数据。

2020-07-24

ClickHouse_19.7.3.9-el7_rpm包

clickhouse-client-19.7.3.9-1.el7.x86_64.rpm clickhouse-common-static-19.7.3.9-1.el7.x86_64.rpm clickhouse-server-19.7.3.9-1.el7.x86_64.rpm clickhouse-server-common-19.7.3.9-1.el7.x86_64.rpm 本文件仅用于学习,参考,资源来自网络,如有侵权,请联系删除。

2020-06-24

标签设计文档.xlsx

数据仓库元数据设计必须有很强的规范性与极高的易读性,一个好的元数据设计可以支撑公司数年甚至十年以上的稳定。 那么元数据设计怎样设计才好呢?这是一份标签设计文档,使用三层标签设计准则,对物理度量与值都有一定规范,是一份好的参考资料。

2020-05-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除