大数据
文章平均质量分 79
普普通通程序猿
做人要知足,做事要知不足,做学问要不知足。
展开
-
关于kafka客户端程序无法访问kafka集群的问题
本地客户端程序无法访问kafka集群原创 2022-11-05 00:22:05 · 1247 阅读 · 0 评论 -
浅谈zookeeper在clickhouse中的使用
对于大多数分布式软件而言,数据的一致性问题是其必须要考虑的内容,zookeeper是最常见的也是使用最广泛的一个解决数据一致性问题的工具,clickhouse在其分布式方案的设计中也引入了zookeeper的使用,并强依赖于此。本文根据最近的一些项目经验,从原理和实践上来简单总结一下zookeeper在clickhouse中的使用吧~~1. zookeeper的用途zookeeper从存储的角度来看类似于一颗文件树,每个节点称之为znode,基本的工作原理类似于消息的发布订阅模式,客户端程序通过watc原创 2021-12-13 00:31:13 · 11328 阅读 · 6 评论 -
clickhouse之数据写入问题
文章目录1. 写入方法方法一:文件导入方法二:插入语句方法三:JDBC接口2. 性能瓶颈3. 其它注意事项4. 总结众所周知,在精心设计的索引(见前文:clickhouse之索引)以及极致压制硬件物理性能(见前文clickhouse之向量执行引擎)的作用下,clickhouse单机表现出卓越的查询和计算性能。但是有些使用场景,对数据库的写性能要求同样很高,那么clickhouse在写数据上的表现究竟如何呢?因为最近我们的小伙伴因为项目需要有做过一些测试,我简单总结一下吧~~1. 写入方法方法一:文件导原创 2021-11-14 22:35:47 · 6651 阅读 · 0 评论 -
clickhouse之主键不具有唯一性约束的问题
和之前的传统关系型数据库不同,clickhouse的主键不具有唯一性约束,那如果有一些需要数据去重的场景我们该咋办呢?别急,我们通过问答的方式来了解一下吧~~Q:为什么clickhouse在设计的时候主键不具有唯一性约束呢?A: 坦白讲,我也不清楚,因为我没看到过对此有官方的说明,我的理解是因为clickhouse采用的是稀疏索引,如果在插入的时候还要进行唯一性检查,将会额外的耗费一些时间,不像使用稠密索引的方式能够更快定位到重复,毕竟clickhouse的设计理念是为了一个“快”字,而且使用的场景更多原创 2021-11-11 00:48:22 · 5871 阅读 · 0 评论 -
clickhouse之常用函数整理(官网)--持续更新
根据clickhouse官网资料进行整理、汇总,方便日常查询使用。1. 算术类型函数说明参数返回值plus(a, b)加法运算a,b可以是数值类型,也可以一个是数值类型,另一个是日期类型如果a,b均为数值类型,则返回数值;如果a为日期类型,则a+b表示在日期a之后添加b天;如果a为时间类型,则a+b表示在时间a之后添加b秒minus(a, b)计算差值a,b可以是数值类型,也可以一个是数值类型,另一个是日期类型同plus函数multiply(a, b).原创 2021-10-31 23:38:10 · 824 阅读 · 0 评论 -
clickhouse之HDFS云存储
文章目录测试环境配置方法底层实现零拷贝总结导读:看官方文档说clickhouse现在支持HDFS和AWS S3作为数据存储的仓库,如果是这样的话,那就意味着基于clickhouse也可以实现"存储与计算分离"的架构设计了,那自然对于整个系统的可靠性和可扩展性是有极大帮助的。本文尝试着对这一新功能一探究竟~~测试环境clickhouse版本:21.8, 我们的环境之前有一个20.6的版本,尝试后发现并不支持,于是装了一个较新的版本。云存储:HDFS。我们自己的很多产品都是基于Hadoop生态来原创 2021-09-01 00:56:50 · 2623 阅读 · 0 评论 -
clickhouse之bitmap
1. bitmap知多少2. clickhouse中的bitmap函数3. clickhouse+bitmap的使用场景原创 2021-08-29 01:06:30 · 6633 阅读 · 2 评论 -
clickhouse之HDFS引擎(支持kerberos环境)
翻译自官网文档:https://clickhouse.tech/docs/en/engines/table-engines/integrations/hdfs/文章目录用法实现细节通配符举例配置配置选项kerberos支持Clickhouse通过HDFS引擎可以实现对HDFS上数据的管理,从而实现了与Apache Hadoop生态圈的集成。该引擎和File以及URL类型的引擎十分相似,不同之处在于提供了一些Hadoop相关的功能。用法ENGINE = HDFS(URI, format)UR.翻译 2021-08-19 00:51:46 · 2493 阅读 · 4 评论 -
clickhouse之物化视图
文章目录1. 何为物化视图?2. 幕后英雄-AggregatingMergeTree3. 如何使用物化视图?用空间换时间是编程世界的指导思想之一。1. 何为物化视图?“视图(view)”是传统关系型数据库设计中的一个基本概念,其根本目的是为了简化查询,那么在clickhouse的设计中也借鉴了这一概念。视图分为普通和物化两种:普通视图的话只是一层简单的查询代理,其本身不会占用任何存储空间,当然也不会带来查询性能的提升;而物化视图则具有独立的存储,在原表写入数据的时候,物化视图的数据也会跟着更新,原创 2021-08-12 01:03:05 · 1919 阅读 · 0 评论 -
clickhouse之向量执行引擎
clickhouse作为一款OLAP类型的数据库为什么快?可以列出来的原因有很多,比如:列式存储、多级索引优化、算法优化等等,其中对硬件性能的极致压榨也是其中一个很重要的原因,引入向量化执行引擎就是一个代表性的操作。所谓向量化执行引擎其实就是利用了CPU的SIMD指令来处理计算。1. SIMDSIMD:Single Instruction Multiple Data,即单条指令操作多条数据。SSE: Streaming SIMD Extensions,是一种SIMD指令集。SSE有8个128位寄存原创 2021-08-08 00:25:52 · 3444 阅读 · 2 评论 -
clickhouse之JDBC表引擎
clickhouse相比其他数据库的一个特点就是提供了丰富的外部表引擎,其中JDBC引擎允许clickhouse直接通过JDBC接口与外部数据库对接。借助这个特点,clickhouse的一个使用场景就是作为跨数据源的查询引擎。本文主要介绍如何在clickhouse中使用JDBC表引擎。1. clickhouse-jdbc-bridge要想实现JDBC表引擎的功能,clickhouse需要借助clickhouse-jdbc-bridge来提供查询代理服务。clickhouse-jdbc-bridge的gi原创 2021-08-03 23:37:08 · 2336 阅读 · 1 评论 -
clickhouse之索引
索引技术是一款数据库产品的核心,那么clickhouse是如何来使用索引的呢?我们试着来一窥究竟吧~~注意:本文所说的索引是指MergeTree引擎下的索引技术。1. 稀疏索引首先,clickhouse的一级索引使用了一种叫做稀疏索引的技术,那么何为稀疏索引呢?既然有稀疏索引,是不是相对的也有稠密索引呢?没错,确实有。二者的区别如下:稠密索引: 每行数据记录都会对应一行索引标记。稀疏索引: 每隔若干行记录对应一条索引标记。既然概念清楚了,那么使用稀疏索引带来的好处也是显而易见的,那就是可以大幅减原创 2021-08-01 00:59:28 · 9668 阅读 · 4 评论 -
clickhouse之partition
文章目录1. partition初体验2. partition原理3. 再看partition4. TTL设置1. partition初体验项目中有张400亿条记录的表,建表时用partition by date_time按天做了分区,同样查一天的数据,对某个字段做汇聚,如果按非partition的字段做范围查询,查询耗时1164秒,见下图:但如果按分区字段查询,查询时间则缩短到了4秒钟,简直天壤之别~~:2. partition原理3. 再看partition4. TTL设置...原创 2021-07-29 00:50:37 · 3755 阅读 · 0 评论 -
利用flume接收syslog日志
前提:每台服务器上都部署有rsyslog服务修改rsyslog配置文件:/etc/rsyslog.conf (CentOS操作系统)添加一行:. @@10.10.10.1:514如果只想发送info级别的日志,则配置方式为:*.info @@10.10.10.1:514其中:10.10.10.1为远端接收日志服务器的域名或IP地址;514为远端日志服务器的端口。注意:@@是必须的,一个@表示UDP连接;@@表示TCP连接修改完成后,重启rsyslog服务:service rs原创 2021-07-28 14:11:07 · 1441 阅读 · 0 评论