ClickHouse搭建-备忘

最新推荐文章于 2024-07-07 18:44:50 发布

老师好我叫陈js

最新推荐文章于 2024-07-07 18:44:50 发布

阅读量204

点赞数

文章标签： hadoop

本文链接：https://blog.csdn.net/chenjunshi123/article/details/125133438

版权

整理之前的文档到CSDN 做备忘。
clickhouse 版本： 21.8.14.5

单机部署

**
1.关闭防火墙
2.CentOS 取消 SELINUX
3. CentOS 取消打开文件数限制

    vim /etc/security/limits.conf
    vim /etc/security/limits.d/20-nproc.conf
    * soft nofile 65536
    * hard nofile 65536
    * soft nproc 131072
    * hard nproc 131072

4.安装依赖

    yum install -y libtool
    yum install -y *unixODBC*

5.安装clickhouse 4个rpm 包
6. vim /etc/clickhouse-server/config.xml
把 <listen_host>::</listen_host> 注释打开

HA - 副本

*** 副本的目的主要是保障数据的高可用性，即使一台 ClickHouse 节点宕机，那么也可以从其他服务器获得相同的数据。***
节点：node1 node2
1.安装启动zookeeper(步骤省略)
2.在 node1 的/etc/clickhouse-server/config.d 目录下创建一个名为 metrika.xml的配置文件

<?xml version="1.0"?>
<yandex>
<zookeeper-servers>
 <node index="1">
 <host>task154</host>
 <port>2181</port>
 </node>
 <node index="2">
 <host>task155</host>
 <port>2181</port>
 </node>
 <node index="3">
 <host>task156</host>
 <port>2181</port>
 </node>
</zookeeper-servers>
</yandex>

3.上述配置文件发送到node2
4.node1节点： /etc/clickhouse-server/config.xml 中增加

<include_from>/etc/clickhouse-server/config.d/metrika.xml</include_from>

5.config.xml 文件同步到node2上
6.分别启动两台节点的clickhouse
7.测试
建表

create table t_order_rep (
 id UInt32,
 sku_id String,
 total_amount Decimal(16,2),
 create_time Datetime
) engine =ReplicatedMergeTree('/clickhouse/table/01/t_order_rep','rep_101')
 partition by toYYYYMMDD(create_time)
 primary key (id)
 order by (id,sku_id);

插入测试

(101,'sku_001',1000.00,'2020-06-01 12:00:00'),
(102,'sku_002',2000.00,'2020-06-01 12:00:00'),
(103,'sku_004',2500.00,'2020-06-01 12:00:00'),
(104,'sku_002',2000.00,'2020-06-01 12:00:00'),
(105,'sku_003',600.00,'2020-06-02 12:00:00');

观察在另外一个节点也可看到相同的数据证明数据已经备份到其他节点了

分片+副本

节点 node1 node2 node3
配置 2分片3副本
思路创建本地表 + 分布式表
重新编辑 /etc/clickhouse-server/config.d/metrika.xml

<yandex>
    <remote_servers>
        <pdp_cluster>
            <!-- 集群名称-->
            <shard>
                <!--集群的第一个分片-->
                <internal_replication>true</internal_replication>
                <replica>
                    <!--该分片的第一个副本-->
                    <host>task154</host>
                    <port>9000</port>
                </replica>
                <replica>
                    <!--该分片的第二个副本-->
                    <host>task155</host>
                    <port>9000</port>
                </replica>
            </shard>
            <shard>
                <!--集群的第二个分片-->
                <internal_replication>true</internal_replication>
                <replica>
                    <!--该分片的第一个副本-->
                    <host>task156</host>
                    <port>9000</port>
                </replica>
            </shard>
        </pdp_cluster>
    </remote_servers>
    <zookeeper-servers>
        <node index="1">
            <host>task154</host>
            <port>2181</port>
        </node>
        <node index="2">
            <host>task155</host>
            <port>2181</port>
        </node>
        <node index="3">
            <host>task156</host>
            <port>2181</port>
        </node>
    </zookeeper-servers>
    <macros>
        <shard>01</shard>
        <!--不同机器放的分片数不一样-->
        <replica>rep_1_1</replica>
        <!--不同机器放的副本数不一样-->
    </macros>
</yandex>

注意每个节点的标签不同建表会引用这个标签的变量
3.重启

4.建本地表（集群其他节点会同步）

create table st_order_mt on cluster pdp_cluster (
 id UInt32,
 sku_id String,
 total_amount Decimal(16,2),
 create_time Datetime
) engine 
=ReplicatedMergeTree('/clickhouse/tables/{shard}/st_order_mt','{replica}')
 partition by toYYYYMMDD(create_time)
 primary key (id)
 order by (id,sku_id);

ReplicatedMergeTree 后面的参数引用就是配置文件里写的变量对应的值，第一个是zk存储路径不同分片路径不能相同，相同分片副本名不能相同
5.创建分布式表

create table st_order_mt_all on cluster pdp_cluster
(
 id UInt32,
 sku_id String,
 total_amount Decimal(16,2),
 create_time Datetime
)engine = Distributed(pdp_cluster,default, st_order_mt,hiveHash(sku_id));
Distributed（集群名称，库名，本地表名，分片键）

6.插入数据

insert into st_order_mt_all values

(201,'sku_001',1000.00,'2020-06-01 12:00:00') ,

(202,'sku_002',2000.00,'2020-06-01 12:00:00'),

(203,'sku_004',2500.00,'2020-06-01 12:00:00'),

(204,'sku_002',2000.00,'2020-06-01 12:00:00'),

(205,'sku_003',600.00,'2020-06-02 12:00:00');

7观察数据
分布式表

SELECT * FROM st_order_mt_all;

┌──id─┬─sku_id──┬─total_amount─┬─────────create_time─┐
│ 202 │ sku_002 │ 2000.00 │ 2020-06-01 12:00:00 │
│ 203 │ sku_004 │ 2500.00 │ 2020-06-01 12:00:00 │
│ 204 │ sku_002 │ 2000.00 │ 2020-06-01 12:00:00 │
└─────┴─────────┴──────────────┴─────────────────────┘
┌──id─┬─sku_id──┬─total_amount─┬─────────create_time─┐
│ 205 │ sku_003 │ 600.00 │ 2020-06-02 12:00:00 │
└─────┴─────────┴──────────────┴─────────────────────┘
┌──id─┬─sku_id──┬─total_amount─┬─────────create_time─┐
│ 201 │ sku_001 │ 1000.00 │ 2020-06-01 12:00:00 │
└─────┴─────────┴──────────────┴─────────────────────┘
本地表

select * from st_order_mt;

task154
┌──id─┬─sku_id──┬─total_amount─┬─────────create_time─┐
│ 202 │ sku_002 │ 2000.00 │ 2020-06-01 12:00:00 │
│ 203 │ sku_004 │ 2500.00 │ 2020-06-01 12:00:00 │
│ 204 │ sku_002 │ 2000.00 │ 2020-06-01 12:00:00 │
└─────┴─────────┴──────────────┴─────────────────────┘

task155
┌──id─┬─sku_id──┬─total_amount─┬─────────create_time─┐
│ 202 │ sku_002 │ 2000.00 │ 2020-06-01 12:00:00 │
│ 203 │ sku_004 │ 2500.00 │ 2020-06-01 12:00:00 │
│ 204 │ sku_002 │ 2000.00 │ 2020-06-01 12:00:00 │
└─────┴─────────┴──────────────┴─────────────────────┘

task156
┌──id─┬─sku_id──┬─total_amount─┬─────────create_time─┐
│ 205 │ sku_003 │ 600.00 │ 2020-06-02 12:00:00 │
└─────┴─────────┴──────────────┴─────────────────────┘
┌──id─┬─sku_id──┬─total_amount─┬─────────create_time─┐
│ 201 │ sku_001 │ 1000.00 │ 2020-06-01 12:00:00 │
└─────┴─────────┴──────────────┴─────────────────────┘
结论：数据被成功切分为两份分别在task154 task156。由于154的数据备份到了155，所以155上查到的本地表数据和154一样