王知无(import_bigdata)
微信搜:import_bigdata
GitHub搜:https://github.com/wangzhiwubigdata/God-Of-BigData
展开
-
【硬刚ClickHouse】ClickHouse 高级(七)MaterializeMySQL 引擎
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。1 概述 MySQL 的用户群体很大,为了能够增强数据的实时性,很多解决方案会利用 binlog 将数据写入到 ClickHouse。为了能够监听 binlog 事件,我们需要用到类似 canal 这样的第三方中间件,这无疑增加了系统的复杂度。 ClickHouse 20.8.2.3 版本新增加了 MaterializeMySQL 的 database 引擎,该 databas原创 2021-09-23 03:05:25 · 526 阅读 · 0 评论 -
【硬刚ClickHouse】ClickHouse 监控及备份 (二)Prometheus&Grafana 的安装
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。0 Prometheus&Grafana 的安装Prometheus 下载地址:https://prometheus.io/download/Grafana 下载地址:https://grafana.com/grafana/download1 安装 PrometheusPrometheus 基于 Golang 编写,编译后的软件包,不依赖于任何的第三方依赖。只需要下载对原创 2021-09-23 03:15:32 · 432 阅读 · 0 评论 -
【硬刚ClickHouse】ClickHouse 高级(三)优化(3)ClickHouse 语法优化规则
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。0ClickHouse 语法优化规则ClickHouse 的 SQL 优化规则是基于 RBO(Rule Based Optimization),下面是一些优化规则1 准备测试用表1)上传官方的数据集将 visits_v1.tar 和 hits_v1.tar 上传到虚拟机,解压到 clickhouse 数据路径下// 解压到 clickhouse 数据路径sudo .原创 2021-09-23 02:41:57 · 756 阅读 · 2 评论 -
【硬刚ClickHouse】ClickHouse 监控及备份 (一)ClickHouse 监控概述
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。ClickHouse 运行时会将一些个自身的运行状态记录到众多系统表中( system.*)。所以我们对于 CH 自身的一些运行指标的监控数据,也主要来自这些系统表。但是直接查询这些系统表会有一些不足之处:➢这种方式太过底层,不够直观,我们还需要在此之上实现可视化展示;➢系统表只记录了 CH 自己的运行指标,有些时候我们需要外部系统的指标进行关联分析,例如 ZooKeeper、服务器原创 2021-09-23 03:10:06 · 925 阅读 · 0 评论 -
【硬刚ClickHouse】Flink 电商实时数仓(二十四):ClickHouse基础(三)数据类型
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。数据类型3.1 整型固定长度的整型,包括有符号整型或无符号整型。整型范围(-2n-1~2n-1-1):Int8 - [-128 : 127]Int16 - [-32768 : 32767]Int32 - [-2147483648 : 2147483647]Int64 - [-9223372036854775808 : 9223372036854775807]无符原创 2021-09-23 01:29:38 · 360 阅读 · 0 评论 -
【硬刚ClickHouse】ClickHouse 高级(一)优化(1)Explain 查看执行计划
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。0 Explain 查看执行计划 在 clickhouse 20.6 版本之前要查看 SQL 语句的执行计划需要设置日志级别为 trace 才能可以看到,并且只能真正执行 sql,在执行日志里面查看。在 20.6 版本引入了原生的执行计划的语法。在 20.6.3 版本成为正式版本的功能。 本文档基于目前较新稳定版 21.7.3.14。1 基本语法EXPLAIN ...原创 2021-09-23 02:18:04 · 841 阅读 · 0 评论 -
【硬刚ClickHouse】ClickHouse 高级(四)优化(4)查询优化
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。1 单表查询1.1 Prewhere 替代 where Prewhere 和 where 语句的作用相同,用来过滤数据。不同之处在于 prewhere 只支持*MergeTree 族系列引擎的表,首先会读取指定的列数据,来判断数据过滤,等待数据过滤之后再读取 select 声明的列字段来补全其余属性。 当查询列明显多于筛选列时使用 Prewhere 可十倍提升查询性能,Prew原创 2021-09-23 02:49:02 · 1783 阅读 · 0 评论 -
【硬刚ClickHouse】Flink 电商实时数仓(二十三):ClickHouse基础(二)使用基础(2)ClickHouse 的安装(centos)
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。ClickHouse 的安装2.1 准备工作2.1.1 确定防火墙处于关闭状态2.1.2 CentOS 取消打开文件数限制➢ 在 hadoop202 的 /etc/security/limits.conf 文件的末尾加入以下内容[atguigu@hadoop202 ~]$ sudo vim /etc/security/limits.conf* soft nofile原创 2021-09-23 01:24:36 · 373 阅读 · 0 评论 -
【硬刚ClickHouse】ClickHouse 监控及备份 (四)Grafana 集成 Prometheus
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。1 添加数据源 Prometheus(1)点击配置,点击 Data Sources:(2)点击添加按钮:(3)找到 Prometheus,点击 Select(4)配置 Prometheus Server 地址:(5)点击下方的 Save&Test:(6)出现绿色的提示框,表示与 Prometheus 正常联通:(7)点击 Bac.原创 2021-09-23 03:19:46 · 363 阅读 · 0 评论 -
【硬刚ClickHouse】Flink 电商实时数仓(二十七):ClickHouse基础(六)使用基础(3)副本
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。副本 副本的目的主要是保障数据的高可用性,即使一台 ClickHouse 节点宕机,那么也可以从其他服务器获得相同的数据。6.1 副本写入流程6.2 配置步骤➢ 启动 zookeeper 集群➢ 在hadoop202的/etc/clickhouse-server/config.d目录下创建一个名为metrika.xml的配置文件,内容如下: View Code原创 2021-09-23 01:54:30 · 335 阅读 · 0 评论 -
【硬刚ClickHouse】ClickHouse 监控及备份 (三)ClickHouse 配置
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。1 修改配置文件编辑/etc/clickhouse-server/config.xml,打开如下配置: <prometheus> <endpoint>/metrics</endpoint> <port>9363</port> <metrics>true</metrics>原创 2021-09-23 03:17:52 · 445 阅读 · 0 评论 -
【硬刚ClickHouse】Flink 电商实时数仓(二十二):ClickHouse基础(一)使用基础(1)ClickHouse 入门
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。ClickHouse 入门 ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的列式存储数据库(DBMS),使用C++语言编写,主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报告。1.1 ClickHouse 的特点1.1.1 列式存储以下面的表为例:➢ 采用行式存储时,数据在磁盘上的组织结构为:好处是想原创 2021-09-23 01:15:52 · 543 阅读 · 0 评论 -
【硬刚ClickHouse】Flink 电商实时数仓(二十五):ClickHouse基础(四)语法(1)DDL(1)表引擎
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。表引擎4.1 表引擎的使用表引擎是 ClickHouse 的一大特色。可以说, 表引擎决定了如何存储标的数据。包括:➢ 数据的存储方式和位置,写到哪里以及从哪里读取数据➢ 支持哪些查询以及如何支持。➢ 并发数据访问。➢ 索引的使用(如果存在)。➢ 是否可以执行多线程请求。➢ 数据复制参数。表引擎的使用方式就是必须显式在创建表时定义该表使用的引擎,以及引擎原创 2021-09-23 01:44:29 · 420 阅读 · 0 评论 -
【硬刚ClickHouse】ClickHouse 监控及备份 (五)备份及恢复
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。官网:https://clickhouse.tech/docs/en/operations/backup/1 手动实现备份及恢复 ClickHouse 允许使用 ALTER TABLE ... FREEZE PARTITION ... 查询以创建表分区的本地副本。这是利用硬链接(hardlink)到 /var/lib/clickhouse/shadow/ 文件夹中实现的,所以它通常不原创 2021-09-23 03:22:50 · 899 阅读 · 0 评论 -
【硬刚ClickHouse】Flink 电商实时数仓(二十八):ClickHouse基础(七)使用基础(4)分片集群
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。分片集群 副本虽然能够提高数据的可用性,降低丢失风险,但是每台服务器实际上必须容纳全量数据,对数据的横向扩容没有解决。 要解决数据水平切分的问题,需要引入分片的概念。通过分片把一份完整的数据进行切分,不同的分片分布到不同的节点上,再通过 Distributed 表引擎把数据拼接起来一同使用。 Distributed 表引擎本身不存储数据,有点类似于 MyCat 之于 My原创 2021-09-23 02:00:58 · 363 阅读 · 0 评论 -
【硬刚ClickHouse】ClickHouse 高级(八)运维(1)常见问题排查
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。1 分布式 DDL 某数据节点的副本不执行(1)问题:使用分布式 ddl 执行命令 create table on cluster xxxx 某个节点上没有创建表,但是 client 返回正常,查看日志有如下报错。<Error> xxx.xxx: Retrying createReplica(), because some other replicas were cre原创 2021-09-23 03:08:30 · 492 阅读 · 0 评论 -
【硬刚ClickHouse】ClickHouse基础(九)ClickHouse函数
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。https://blog.csdn.net/u012111465/article/details/852500301、日期类函数1.1 时间或日期截取函数(to)—— 返回非日期1.2 时间或日期截取函数(toStartOf)—— 返回日期1.3 日期或时间日期生成函数2、类型转化类函数2.1 精度保留(非四舍五入)2.2 字符串转化为.原创 2021-09-23 03:25:19 · 565 阅读 · 0 评论 -
【硬刚ClickHouse】ClickHouse 高级(六)物化视图
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。 ClickHouse 的物化视图是一种查询结果的持久化,它确实是给我们带来了查询效率的提升。用户查起来跟表没有区别,它就是一张表,它也像是一张时刻在预计算的表,创建的过程它是用了一个特殊引擎,加上后来 as select,就是 create 一个 table as select 的写法。 “查询结果集”的范围很宽泛,可以是基础表中部分数据的一份简单拷贝,也可以是多表 join 之后产原创 2021-09-23 02:59:48 · 495 阅读 · 0 评论 -
ClickHouse基础(八)使用基础(5)ClickHouse 的安装(win10)
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。零 导读随着互联网技术的发展,海量数据已经成为公司决策分析的重要来源,ClickHouse有着大数据入门和低学习成本(支持SQL)的优势,故开启了第一篇环境搭建。希望能降低ClickHouse的入门门槛。一 环境及工具Windows10专业版(64位):Windows其他版本可能会有其他问题,建议使用该环境。 Docker Desktop:可以在Windows环境下运行docker原创 2021-09-23 02:12:37 · 698 阅读 · 0 评论 -
【硬刚ClickHouse】ClickHouse 高级(五)数据一致性(重点)
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。查询 CK 手册发现,即便对数据一致性支持最好的 Mergetree,也只是保证最终一致性:1 准备测试表和数据(1)创建表CREATE TABLE test_a( user_id UInt64, score String, deleted UInt8 DEFAULT 0, create_time DateTime DEFAULT toDateTime(0))EN.原创 2021-09-23 02:55:37 · 840 阅读 · 0 评论 -
【硬刚ClickHouse】Flink 电商实时数仓(二十六):ClickHouse基础(五)语法(2)DML(1)SQL 操作
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。SQL 操作 基本上来说传统关系型数据库(以 MySQL 为例)的 SQL 语句,ClickHouse 基本都支持,这里不会从头讲解 SQL 语法只介绍 ClickHouse 与标准 SQL(MySQL)不一致的地方。5.1 Insert基本与标准 SQL(MySQL)基本一致➢ 标准insert into [table_name] values(…),(….)➢原创 2021-09-23 01:48:42 · 360 阅读 · 0 评论 -
【硬刚ClickHouse】ClickHouse 高级(二)优化(2)建表优化
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ClickHouse:部分补充。1 数据类型1.1 时间字段的类型 建表时能用数值型或日期时间型表示的字段就不要用字符串,全 String 类型在以 Hive为中心的数仓建设中常见,但 ClickHouse 环境不应受此影响。 虽然 ClickHouse 底层将 DateTime 存储为时间戳 Long 类型,但不建议存储 Long 类型,因为DateTime 不需要经过函数转换处理,执行效率高、可读性.原创 2021-09-23 02:23:57 · 707 阅读 · 0 评论