- 博客(11)
- 收藏
- 关注
转载 clickhouse 优化
Clickhouse 优化Clickhouse堪称OLAP领域的黑马,最近发布的几个版本在多表关联分析上也有了极大的性能提升,尤其是还引入了MaterializeMySQL Database Engine做到了实时对齐业务线mysql中的数据。表优化数据类型建表时能用数值型或日期时间型表示的字段,就不要用字符串——全String类型在以Hive为中心的数仓建设中常见,但CK环境不应受此影响。虽然clickhouse底层将DateTime存储为时间戳Long类型,但不建议直接存储Long类型,因为
2020-10-21 14:29:57 1270
原创 clickhouse之SQL语法--Functions
clickhouse之SQL语法–Functions介绍Clickhouse 中至少有2中类型的函数-正常函数(被称为 functions)和聚合函数.这两个函数完全不同。正常函数被应用到每行(对于每行,函数的结果不依赖与其他行).聚合函数从不同的行中累计相应的值(例如. 他们依赖整个行的集合). 在本章中,我们将讨论正常函数. 对于聚合函数, 查看章节"Aggregate functio...
2019-05-20 15:49:34 5053
原创 clickhouse简单使用+函数整理
1、日期类函数2、类型转化类函数3、字符串操作4、条件语句5、数学函数6、舍入函数7、URL操作函数8、IP操作函数9、表操作10、字典操作具体参考:https://blog.csdn.net/u012111465/article/details/85250030...
2019-05-08 14:50:21 4652
原创 python--Python脚本执行SQL
说明:在Linux写python脚本执行SQL,废话不多说,直接贴代码解释。#!/usr/bin/env python##python脚本格式,这里有一点要说明的是:#!/usr/bin/env python与#!/usr/bin/python的区别?##如下:#!/usr/bin/python 的意思是说去/usr/bin/目录下找python去执行#!/usr/bin/env pyth...
2019-05-07 18:34:41 3340
原创 HIVE优化
Hive优化总结1、整体架构优化现在hive的整体框架如下,计算引擎不仅仅支持Map/Reduce,并且还支持Tez、Spark等。根据不同的计算引擎又可以使用不同的资源调度和存储系统。整体架构优化点:1、根据不同业务需求进行日期分区,并执行类型动态分区。相关参数设置:0.14中默认hive.exec.dynamic.partition=ture2、为了减少磁盘存储空间以及I/O次数...
2018-12-10 19:52:39 305
原创 数据大精度之bigdecimal
BigDecimal (任意精度小数演算法)1.概述float和double类型的主要设计目标是为了科学计算和工程计算。他们执行二进制浮点运算,这是为了在广域数值范围上提供较为精确的快速近似计算而精心设计的。然而,它们没有提供完全精确的结果,所以不应该被用于要求精确结果的场合。但是,商业计算往往要求结果精确,这时候BigDecimal就派上大用场啦。先看下面的代码: public stat...
2018-12-10 19:49:50 333
原创 YARN
YARN概念Yet Another Resource Negotiator(好吧,另一种资源协调者),作业调度和集群资源管理的框架HDFS&YARN进程通讯模型YARN程序执行流程ResourceManager有两个主要组件:Scheduler和ApplicationsManager。调度程序负责根据熟悉的容量,队列等约束将资源分配给各种正在运行的应用程序。调度程序是纯调度程序...
2018-12-10 19:47:01 134
原创 MR优化总结
优化前1.熟知业务要求2.熟知数据分布状态(是否倾斜、是否是多个小文件等),可以使用采样来了解数据通用型优化策略1.文件存储格式使用更加优化的格式的文件,例如Parquet、ORC,综合来说,ORC最优。2.文件压缩可以在mr各阶段启用压缩,例如:数据块可以被压缩(reduce输出可以被压缩)、map输出数据可以被压缩(减少shuffle过程中传输的数据量)3.shuffle优化...
2018-12-10 19:43:54 2126
原创 MR大体流程图
此MR程序以wordcount为例1、数据准备:如图所示,在HDFS中有一个1G的文件,HDFS中的的默认分块的大小为256M,分别存储在HDFS中的四个块中。在文件被分成块之后,不会直接被mapreduce处理。而是先由FileInputFormat进行切片。2、在MR程序运行的过程中,会生成许多MapTask程序,MapTask的数量和“分片”的数量相同,一般来说,每个分片都有一个MapT...
2018-12-10 19:37:50 1144
原创 Java集合的继承关系图解
集合的继承关系图解集合的特点:用来存储不同类型的对象(基本数据类型除外),存储长度可变。Java集合中实际存放的只是对象的引用,每个集合元素都是一个引用变量,实际内容都放在堆内存或者方法区里面,但是基本数据类型是在栈内存上分配空间的,栈上的数据随时就会被收回的。基本类型数据如何解决呢?可以通过包装类把基本类型转为对象类型,存放引用就可以解决这个问题。更方便的,由于有了自动拆箱和装箱功能,...
2018-11-20 20:13:13 4515 2
原创 7种进程名称及作用
namenode :主要是用来保存HDFS的元数据信息,比如命名空间信息,块信息等。2台,一台active,一台standby.会与zkfc通信,一旦某台namenode当掉,zkfc会与zookeeper进行通信,立即启动standby的namenode.datanode:1Data Node以数据块的形式存储HDFS文件2Data Node 响应HDFS 客户端读写请求3Da...
2018-11-20 19:54:40 825
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人