getBinary-CSDN博客

原创 hive-7（常用函数）

常用函数数据准备first_value last_value正则函数regexpregexp_extractregexp_replaceURL解析函数JSON解析函数JSON_OBJECTJSON_TUPLE分位函数数据准备CREATE DATABASE IF NOT EXISTS test_data;-- 创建学生表并插入数据CREATE TABLE IF NOT EXISTS test_data.student(sid string,sname string,sage string,g

2021-12-14 21:30:59 2120

原创 ClickHouse-8（物化视图和MaterializeMySQL）

物化视图和MaterializeMySQL物化视图什么是物化视图物化视图的优缺点如何创建物化视图MySQL物化引擎MaterializeMySQL库创建物化视图什么是物化视图MySQL中，视图实际是将一个查询语句的执行逻辑记下来，以后使用视图中的数据时，先按照记录的执行逻辑得到结果，再将结果用于新的查询计算。普通的视图时不会保存数据的，仅保存查询语句，也就是计算逻辑。而物化视图会将查询的结果根据相应的引擎存入磁盘或内存中，所以可以理解物化视图就是一张表(的确是一张表，当指定表名时会将数据存在指定的表

2021-12-12 09:13:20 1258

原创 ClickHouse-7（性能优化）

性能优化执行计划数据类型时间类型空值存储执行计划从我们编写的SQL有时并不能看出实际底层运行的逻辑，而要性能优化的话，阅读执行计划可以帮助理解运行逻辑，从而提供优化思路。另一方面，ClickHouse会对书写的SQL做一定的优化，可以通过查看优化执行计划帮助我们改进SQL语句需要注意的是ClickHouse在20.6版本起才支持查看执行计划，之前的版本只能通过将日志级别设置为TRACE，查看执行日志了解运行过程执行计划基本语法：EXPLAIN [AST | SYNTAX | PLAN | PIP

2021-12-12 09:12:31 2006

原创 ClickHouse-6（集群部署）

集群部署副本配置分片集群副本配置在前面三台节点安装ClickHouse的基础上，可以配置数据副本，保障数据的高可用性ClickHouse是没有主副节点的区分的，所以配置副本后，所有节点都可以读取/写入数据，节点之间通过zookeeper通信，发现互相之间数据有差异时会互相同步数据，保证数据一致数据副本配置流程：cd /etc/clickhouse-server/config.dvim metrika.xml # 这里是个外部配置文件，名字不是指定的在配置文件中指定三个节点的zookeepe

2021-12-12 09:11:38 1870

原创 ClickHouse-5（表引擎）

ClickHouse表引擎表引擎是 ClickHouse 的一大特色。可以说，表引擎决定了如何存储表的数据。包括：➢ 数据的存储方式和位置，写到哪里以及从哪里读取数据。➢ 支持哪些查询以及如何支持。➢ 并发数据访问。➢ 索引的使用（如果存在）。➢ 是否可以执行多线程请求。➢ 数据复制参数。表引擎的使用方式就是必须显式在创建表时定义该表使用的引擎，以及引擎使用的相关参数。外部集成引擎(MySQL、MongoDB和HDFS等)、Log、MergeTree和其他引擎(Distribution

2021-12-12 08:54:21 377

原创 ClickHouse-4（SQL操作）

SQL操作对于传统关系型数据库（以 MySQL 为例）的 SQL 语句， ClickHouse 基本上都支持，这里只介绍 ClickHouse 与标准 SQL（MySQL）不一致的地方。Insert基本与标准 SQL（MySQL）基本一致（1）标准 insert into [table_name] values(…),(….)（2）从表到表的插入 insert into [table_name] select a,b,c from [table_name_2]Update 和 Delete

2021-12-12 08:53:17 212

原创 ClickHouse-3（数据类型）

ClickHouse-2数据类型整型浮点型Decimal类型Boolean类型字符串类型Nullable枚举类型时间类型数组类型SQL操作InsertUpdate 和 Deleteselectalter 操作导出数据数据类型整型CK中的整型统一标记为Int，后面追加的数字表述位数整型分为两种，有符号和无符号数据类型数值范围Int8[-128,127]Int16[32768 , 32767]Int32[2147483648 , 2147483647]Int

2021-12-12 08:50:28 1218

原创 ClickHouse-2（安装配置）

简易安装前置配置关闭SELinux，打开相关端口或关闭防火墙取消打开文件限制：vi /etc/security/limits.conf * soft nofile 65536 * hard nofile 65536 * soft nproc 131072 * hard nproc 131072vi /etc/security/limits.d/20-nproc.conf* soft nofile 65536* hard nofile 65536* soft nproc 1310

2021-12-11 21:00:33 1428

原创 ClickHouse-1（简介）

ClickHouse-1简介简易安装简介官方文档ClickHouse是俄罗斯Yandex开发的一款基于列式存储的开源OLAP查询数据库，CK是基于C语言开发的，CK的定位和传统的数仓工具Hive很类似，下面简单介绍CK和Hive的相同和不同点：相同点：架构相似：同样是以数据库划分，数据库下存储表的形式SQL式操作：CK绝大多数情况下支持ANSI SQL操作（少数操作会有所不同，后面的文章中会详细介绍）不同点：CK并不继承Hadoop体系，而是将文件存储在本地磁盘中CK支持索引（仅限于

2021-12-11 21:00:03 464

原创 Flink-6（Table API和SQL）

Flink-6123123

2021-07-07 22:43:06 278 4

原创 Flink-5（ProcessFunction）

Flink-51212

2021-07-07 22:42:27 95

原创 Flink-4（运行机制、检查点设置）

Flink-4简介使用简介使用

2021-07-07 22:42:03 428 1

原创 Flink-3（Watermark、State）

Flink-3WatermarkStateStateBackendWatermarkStateStateBackend

2021-07-07 22:41:36 207

原创 Flink-2（窗口）

Flink-2窗口定义窗口类型TriggersEvictorsAllowedLatenessSideOutputDataStream窗口定义窗口是Flink流计算的核心，Flink中提供了两大类窗口，有key的窗口和无key的窗口（只能调用XxxWindowAll方式创建）,重点介绍Keyed Windows。窗口函数调用过程：stream .keyBy(...) <- keyed versus non-keyed windows .w

2021-07-07 22:41:07 215 1

原创 Flink-1（基本框架和API）

Flink-1（基本框架和API）入门案例SourceTransformSinkFlink是标准的实时流处理框架，相较于SparkStreaming，Flink是基于事件驱动的，即每一个事件发生就会进行一次处理；Flink流处理通过构建流处理环境对象StreamExecutionEnvironment进行，Flink同时也提供批处理环境对象ExecutionEnvironment，两者使用方面差别不大，下面将重点以StreamExecutionEnvironment为例演示各项功能。入门案例下面使用

2021-07-07 22:40:30 197 1

原创 Redis总结

Redis总结安装配置基本配置项说明基本信息及操作指令基本信息单线程多路复用Key值操作常用五大数据类型StringList（列表）Set（集合）Hash（哈希）ZsetJedis操作持久化操作RDB备份是如何执行的RDB的恢复操作RDB的优缺点AOF持久化策略异常恢复AOF优缺点选用策略多结点部署主从模式主备模式常见应用问题缓存穿透缓存击穿缓存雪崩分布式锁Redis是一个开源的key-value存储系统，和Memcached类似，Redis支持存储的value类型相对更多，包括string、list、s

2021-06-25 15:03:13 251 1

转载 Oracle安装配置和基本命令

Oracle安装配置和基本命令安装配置：https://www.cnblogs.com/yenengfeng/p/13685025.html基本命令：https://www.cnblogs.com/d102601560/p/11973678.html注意Oracle每次启动后，需要执行在SQL命令行执行startup命令启动数据库，在shell命令行执行lsnrctl start命令启动端口监听...

2021-06-24 19:17:38 104

原创 Spark-Streaming

Spark-Streaming基础概念流式计算微批处理常用函数updateStateByKeytransformKafka读取和写入窗口性能调优基础概念流式计算微批处理常用函数updateStateByKeytransformKafka读取和写入窗口性能调优

2021-06-24 19:11:03 120 1

原创 hive-6（UDF、UDAF、UDTF）

hive-6UDFUDAFUDTFHive中内置了很多的函数，包含了日常工作需求的字符串处理、日期时间处理等常用函数，在Hive CLI界面中，可以使用show functions查看全部可用函数，要查看某个函数的作用和用法，可以使用desc function <function_name>指令：当内置函数无法满足我们的需求时，Hive提供了可供用户自定义函数的接口，通过实现指定接口，可以创建实现自定义功能的函数。自定义函数根据输入输出的方式，大致分为三类函数类型描述

2021-06-19 22:19:53 378 2

原创 azkaban安装配置

azkaban安装配置azkaban下载：官网地址配置教程：azkaban.readthedocs.io/en/latest/getStarted.html#编译下载上方的源码包后，需要使用Gradle工具进行编译，下载地址两个压缩包下载完成后，上传到虚拟机并解压[root@num07 compression]# tar -zxvf azkaban-3.84.10.tar.gz[root@num07 compression]# unzip gradle-5.6.3-all.zip接下来，

2021-06-15 20:03:37 204 1

原创数仓理论总结

数仓理论知识总结数仓概念为什么要使用数仓数仓定义和RMDB的区别数仓架构Inmon架构Kimball架构数仓分层建模过程星型模型和雪花模型星型模型雪花模型数仓概念为什么要使用数仓数仓可以统一多系统数据，提供一个所有数据的访问点，便于数据分析和计算，为决策提供数据支持数仓定义数仓（DataWareHourse），一般缩写为DW，是一个面向主题的、集成的、非易失的且随时间变化的数据集合面向主题主题（subject）是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念每一个

2021-06-06 14:21:59 588

原创 mongodb（安装配置）

mongodb（安装配置）Linux系统安装上传安装包，解压后，修改配置文件${MONGO_HOME}/mongo.conf(新建该配置文件)systemLog: destination: file # 日志文件全路径 path: "/opt/mongodb/log/mongod.log" logAppend: truestorage: # 数据存放目录 dbPath: "/opt/mongodb/data/db" journal: enabled:

2021-06-01 16:08:34 161

原创 java小案例（多线程实现WordCount）

java小案例（多线程实现WordCount）先从网上找一篇英语文章：字数太少，复制粘贴几次：我们划分线程的策略是：每30万启动一个新的线程执行任务，首先定义一个线程任务类import java.util.Map;import java.util.TreeMap;public class Count implements Runnable { private String context; private Map<String, Integer> map;

2021-05-31 20:04:20 349 2

原创 Spark-GraphX

Spark-GraphX基本概念SparkGraphX创建Graph对象verticesPageRankPregel基本概念首先了解下与图相关的概念图（Graph）由顶点（Vertex）和边（Edge）组成图根据边是否有方向，可以分为有向图和无向图有向图：无向图：根据是否构成环形（并不是指边和边组成了封闭的图形就叫是有环，而是指从某个顶点出发，经过若干边后可以回到该顶点），分为有环图和无环图有环图：无环图：度：一个顶点，与其连接的边的数量，就叫做该顶点的度出度：指从当前顶点指

2021-05-30 21:37:53 511

原创 Spark广播变量和累加器

Spark广播变量和累加器广播变量broadcast累加器广播变量broadcast累加器

2021-05-29 12:26:33 602

原创 Kafka Streaming

Kafka StreamingKafka Streaming简介简单案例窗口Kafka Streaming简介官方文档：https://kafka.apache.org/20/documentation/streams/Kafka Streaming是基于Kafka的轻量级实时处理API，可以从一个topic中接收数据，进行简单处理后，导入另外一个topic中Kafka Streaming最简单的拓扑结构：从一个topic中读取数据，经过处理操作后，写入到另一个topic中读取数据后，可以获得

2021-05-28 22:26:48 730

原创 Spark-SQL

Spark-SQLRDD、DataFrame、Dataset创建和转换创建DataFrame读取数据转换操作存储数据RDD、DataFrame、Dataset创建和转换创建DataFrame创建DataFrame首先需要SparkSession对象，创建方式：val spark = SparkSession.builder() .master("local[*]") .appName("SparkSQL") .getOrCreate()创建完成后，通过SparkSession对象调用

2021-05-27 18:47:00 81

原创计算机网络分层简单理解

计算机网络分层简单理解分层模型物理层数据链路层网络层传输层UDP协议TCP协议三次握手四次挥手应用层session、token和cookie概念分层模型分层模型共有七层，从上到下分别为应用层、表示层、会话层、传输层、网络层、数据链路层、物理层。但实际表示层和会话层仅存在于概念中，实际应用中并未用到，所以将表示层和会话层与应用层合称应用程，即为五层模型也有在五层模型基础上，将数据链路层和物理层视作一层，即为四层模型下面从下往上简单介绍各分层的分工物理层物理层考虑的是怎样才能在连接各种计算机的传

2021-05-25 22:43:15 1983 5

原创 Kafka Eagle

Kafka EagleKafka Eagle是一款Kafka运行情况监控软件，安装包下载路径：http://download.kafka-eagle.org/首先需要修改Kafka启动脚本修改${KAFKA_HOME}/bin/kafka-server-start.sh# 修改前if [ "x$KAFKA_HEAP_OPTS" = "x" ]; then export KAFKA_HEAP_OPTS="-Xmx1G -Xms1G"fi# 修改后if [ "x$KAFKA_HEAP_

2021-05-25 22:07:36 87

原创 Kafka

Kafka安装配置操作指令运行机制生产者消费者安装配置官网下载地址：http://kafka.apache.org/downloads下载完成后，上传压缩包并解压Kafka的安装依赖于zookeeper环境，如果需要配置KafkaHA需要先将几台结点zookeeper上安装并并搭建zookeeper集群修改配置文件server.properties文件#broker 的全局唯一编号，不能重复broker.id=0#是否开启删除topic功能delete.topic.enable=true

2021-05-25 21:59:45 96

原创 Flume

Flume安装配置运行架构分块配置sourceexecSpooling Directory从Kafka获取数据netcat从指定IP和端口获取数据channelMemoryFileKafkasink存入HDFS存入KafkaNullSink拦截器InterceptorFlume官方文档内容较为简单，可以直接到官网查阅使用方法安装配置官方下载地址：http://flume.apache.org/download.html下载完成后，上传至Linux系统解压配置项只需要配置一个flume-env.sh

2021-05-25 16:53:53 320

原创 Spark算子

Spark算子++aggregatebarriercachecartesiancheckpointcoalescecollectcollectAsynccomputecontextcountcountApproxcountApproxDistinctcountAsynccountByValuecountByValueApproxdependenciesdistinctfilterfirstflatMapfoldforeachforeachAsyncforeachPartitionforeachPartiti

2021-05-09 10:22:49 315 7

原创 spark-1（安装配置）

spark-11、核心模块简介及安装配置核心模块安装配置2-运行环境Local模式Standalone模式配置历史服务高可用集群规划Yarn模式Windows模式部署模式对比端口号IDEA设置控制台不打印INFO信息1、核心模块简介及安装配置核心模块Spark和Hadoop的根本差异是多个作业之间的数据通信问题：Spark多个作业之间数据通信是基于内存，而Hadoop是基于磁盘。在绝大多数的数据计算场景中，Spark确实会比MapReduce更有优势，但是Spark是基于内存的，所以在实际的生产环境

2021-05-06 17:14:03 144 1

原创 scala-5(协变和逆变)

scala-5scala中的协变和逆变，作用类似于java的泛型上下界限原理如下：#mermaid-svg-yF0D3jhyF6mIpzeb .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-yF0D3jhyF6mIpzeb .label text{fill:#333}#mermaid-svg-yF0D3jh

2021-04-27 19:09:57 201

原创 scala-4(面向对象OOP)

scala-4伴生类和伴生对象构造函数属性和函数特质trait特质混入伴生类和伴生对象构造函数属性和函数特质trait特质混入

2021-04-26 19:40:18 88

原创 scala-3（模式匹配）

scala-3数值匹配类型匹配集合匹配对象匹配scala使用match关键字声明，每个分支同样使用case关键字，执行逻辑类似于java的switch，但功能更强大数值匹配每个分支注明具体数值，当匹配对象的数值与具体数值相等时，进入对应分支object ModeMatch { def main(args: Array[String]): Unit = { val oper = '+' val n1 = 20 val n2 = 10 var res = 0

2021-04-26 18:20:48 139

原创 scala-2（函数）

scala-2普通函数高阶函数普通函数基本语法def 函数名(参数列表):返回值类型={ 方法体}返回值类型可以不写，使用类型推断，方法体中可执行的最后一行的类型会被自动作为返回值类型当注明了返回值类型，函数最后一行就必须是对应类型的数值无返回值使用Unit案例：输入若干整型数值，求最大值/*1、要求至少传入两个数值才可以比较大小，所以预定义两个确定的形参，剩余部分使用可变参数接收2、当可变参数个数为0时，对其求最大值会出现空集异常，所以需要判断集合大小*/def getMax

2021-04-23 16:06:58 130

原创 scala-1（开发环境配置+变量和数据类型+程序流程控制）

scala-1开发环境配置变量和数据类型程序流程控制条件判断循环结构for循环循环步长循环终止开发环境配置scala下载：https://www.scala-lang.org/download/解压安装后配置环境变量即可（因为scala需要运行在JVM上，所以需要有JDK环境）windows配置完成后，在命令行输入scala -version可以出现如下提示，说明配置完成Linux系统配置步骤相同配置完成后，要使用IDEA开发scala需要下载scala插件点击Flie->Settin

2021-04-22 15:05:08 106

原创 Sqoop安装配置和基本操作

Sqoop安装配置和基本操作安装配置基本操作安装配置第一步：下载安装包并上传（下载地址）第二步：解压安装包（可以配置环境变量）第三步：基本操作

2021-04-12 18:28:32 260

原创 hbase-4（高可用搭建和性能调优）

hbase-4高可用集群搭建高可用架构搭建架构模型clientMaster ServerRegion Server关键概念性能调优列族设计数据压缩压缩算法（参考数据）查看数据压缩方式ROWKEY设计原则HBase官方设计原则避免使用递增行键/时序数据避免rowkey和列的长度过大（指名称）使用long等类型比String类型更省空间ROWKEY唯一性避免数据热点高可用集群搭建高可用架构搭建当HMaster出现故障时，再选出一个节点作为HMaster在conf目录下的创建backup-masters文

2021-04-09 14:26:11 137

空空如也

空空如也